附:板书:第一节:常用的生物学研究方法一. 观察法:1.概念:看、听、触摸、嗅各种感官2.环节:设定目标----制定计划---观察---记录---总结二. 实验法:环节:观察现象----提出问题----做出假设----设计实验----预期结果----完成实验----分析实验现象和数据----得出结论设计实验的原则:1.有对照 2.只有一个可变因素3.可重复课后反思:第一课时时间安排有些紧张,弗莱明发现青霉素的过程没有在课上分析,留做作业。设计实验学生有很多方案,因此选出最佳方案所用时间有些紧张(一班和二班出现),实验中学生很兴奋,但是有的同学没有完成实验报告策上的十次计数,这也给实验结果的分析带来不便,另外实验中每个组所用鼠妇的数量也不同。总体还是掌握了应用实验法的三个原则。
生物医学研究的统计方法本书是生物医学研究生使用的经典统计教材,内容易懂经典,无需多少数学基础都能看懂。本书每个章节后面都有知识小结,现汇总以供大家学习。--------------------------------------------------------------------------------------(1) 统计学是关于设计与数据的学问,是从特定环境中获取数据并从数据中提取信息、知识的一门科学与艺术,包括研究设计、数据搜集、数据整理、数据分析和结果报告等步骤。(2) 根据结果(效应)变量的类型、分析目的和资料具备的前提条件等,选择不同的统计学分析方法。变量可分为定量变量与定性变量两大类。定性变量也叫分类变量,根据类别之间有无大小顺序,可将定性变量分为有序(等级)分类变量和无序(名义)分类变量。定量变量有离散和连续之分,定性变量只能是离散变量。(3) 统计工作贯穿于医学研究的全过程,包括研究设计、数据搜集、数据整理、数据分析和结果报告等,切不可将统计工作仅仅局限于“数据分析”。(4) 根据一定研究目的搜集到的资料蕴涵着丰富的信息,统计描述的目的就是用恰当的手段(编制统计表、绘制统计图或计算统计指标)概括地呈现出主要信息。(5) 明确资料的类型,采用不同指标进行统计描述。1)定量资料;描述平均水平可以依据分布特点选用算术均数、几何均数、中位数、众数或调和均数,描述变异程度可以选用全距、标准差、方差、四分位数间距或变异系数(表1)表1 定量资料统计描述常用的统计指标及其适用场合表2 定性资料统计描述常用的统计指标及其适用场合表3 常用统计图的适用资料及实施方法(6) 正态分布是一种重要的连续型分布。若连续随机变量X的概率密度函数为则称X服从总体均数为μ,总体标准差为σ,的正态分布,记作X~N(μ,σ2)。正态分布N(μ,σ2)关于x=μ对称。μ决定正态曲线在横轴上的位置,μ增大,则曲线沿X轴向右移动;反之,μ减小,曲线沿X轴向左移动。σ决定曲线的形状,当μ固定时,σ愈大,表示数据愈分散,曲线愈“矮胖”; σ愈小,数据集中在μ附近,曲线愈“瘦高”。服从正态分布N(μ,σ2)的随机变量在某个区间内取值的概率即为其概率密度曲线下的面积。X取值落在区间μ士1.64σ, μ士1.96σ, μ士2.58σ的概率分别是90%,95,99%,或者说在理论上μ士1.64σ, μ士1.96σ, μ士2.58σ。三个范围内的观察数分别占总观察数的90%、95%、99%。总体均数为σ,总体标准差为1的正态分布称为标准正态分布,记作N(0,1)。服从任意正态分布N(μ,σ2),的变量X都可以通过标准正态变换转化为标准正态分布,从而使正态分布的概率计算问题转化为标准正态分布,进而利用标准正态分布表解决。(7) 二项分布是一种重要的离散型分布,用于描述两分类资料(结果只能出现两种情况)的n次独立重复试验中发生某种阳性结果为X次的概率分布。若随机变量X的概率函数为则称X服从参数为n、π的二项分布,记为X~B(n,π)二项分布B(n,π)的总体均数μ=nπ,总体标准差。(8) Poisson分布也是一种重要的离散型分布,用于描述单位时间或空间内某稀有事件发生数的概率分布。若随机变量X的概率函数为则称X服从参数为产的Poisson分布,记为X~Π(μ)Poisson分布Π(μ)的总体均数和总体方差相等,即μ=σ2。(9) 从同一总体中,随机抽取相同含量的样本,由重复抽取的每一份样本均可计算获得一个样本统计量,样本统计量的分布就是抽样分布。(10) 样本统计量所对应的标准差统计学上习惯地称为标准误,标准误反映抽样误差的大小,即反映总体特征被估计的精确程度。(11) 标准误与样本含量的平方根成反比,样本含量越大,抽样误差越小。(12) 统计推断是根据抽样分布规律,采用样本统计量对相应总体参数所作的非确定性的推断,主要包括参数估计和假设检验两种。参数估计有点估计和区间估计两种。区间估计是按事先给定的置信度((1-α),估计可能包含未知总体参数的一个范围,该范围称为总体参数的((1-α)置信区间。(13) 假设检验是依据样本提供的有限信息、对总体作推断的逻辑推断过程,是对研究总体的两种对立的假设作出选择。假设检验的步骤为:建立假设→计算统计量→确定P值→作出推断结论。假设检验的基本逻辑是根据小概率的思想,认为“小概率事件在一次抽样中不太可能出现”。假设检验存在Ⅰ类错误和Ⅱ类错误。根据假设检验的推断结果下结论时不能绝对化,并要注意结合专业知识。(14)两样本定量资料假设检验的流程对于完全随机设计的两样本定量资料的假设检验,是采用t检验还是秩和检验要看资料是否符合各自的条件。t检验要求资料满足正态性和方差齐性。对于配对设计资料的假设检验,首先看差值是否符合正态分布,如果差值满足正态分布,可以采用配对t检验,否则,采用变量变换使之满足正态性要求或采用配对资料的符号秩和检验。(15) 三个或三个以上均数间的比较可以采用方差分析,以检验多个平均值是否来自相同总体,其实也可用于两个均数间的双侧假设检验,此时结果与t检验完全等价。本章介绍了方差分析中最简单的单因素方差分析,可以用于完全随机设计的实验性研究和多总体随机抽样的观察性研究。(16)方差分析的基本思想即将处理间平均变异与误差平均变异比较。就完全随机设计的资料而言,将全部观测值总的离均差平方和及其自由度分解为组间变异和组内变异两个部分,两者分别由处理因素和随机误差的作用加以解释。通过比较不同变异来源的均方,借助F分布作出统计推断,从而推论处理因素对实验结果有无影响。(17)多组定量资料比较的思路首先进行方差齐性及各样本的正态性检验。若方差齐性,且各样本均服从正态分布,选单因素方差分析。对于明显偏离正态性和方差齐性条件的资料,通常有两种处理方式:一是通过某种形式的数据变换以改善其假定条件,二是改用非参数统计方法Kruskal-Wallis秩和检验。若方差分析或秩和检验结果有统计学意义,则需选择合适的方法(如Bonferonni, LSD法等)进行两两比较。(18) 对于定性资料,我们经常将它整理成列联表的形式。(19) 最简单的列联表是2X2表,即通常所说的四格表。按照设计类型,将资料整理成相应的四格表格式,统计分析时选用相应的统计分析方法。(20)在选用χ2检验时,一定要考虑其对总例数和理论频数的要求。(21) 当多个独立样本频率或频率分布比较的χ2检验,结论为拒绝检验假设时,只能认为各总体频率或频率分布之间不全相同,若想了解其差别的具体情况,需要进行多个样本频率或频率分布的两两比较。(22) 列联表资料统计分析的χ2检验不是万能的。例如,对于有序分类资料,最好选用秩和检验。对于高维列联表资料,相应地有对数线性模型和logistic回归模型等。(23) 相关是测量变量间的相互关联或联系的指标。相关研究的两个变量其关系是平等的,均为随机变量。(24) 在分析相关时必须先作散点图,以核实其是否具有线性关系及是否有异常点或应分层等情况,推荐在报告结果时也提供散点图并说明散点图的特征。(25) 两连续变量间的相关分析方法主要有Pearson积矩相关和Spearman秩相关。前者要求两个变量皆为随机变量,呈双变量正态分布,样本间独立,变量间有线性趋势;当资料不满足正态分布条件或为等级资料时,采用Spearman秩相关方法。两者的计算思想是一致的,但秩相关不使用原始数据而使用秩次进行计算。计算出相关系数后,还应进行假设检验,甚至计算相关系数的置信区间。(26) 分类资料的关联分析可区分为二分类和多分类的情形,检验都采用χ2检验。分类资料的关联性检验应与率的比较检验相区别。若检验结果拒绝两变量独立的假设,则可计算关联系数。(27) 相关和关联是两变量间相互关联或联系数量上的关系,不能据此推论两变量有生物学的联系,或有因果关系。相关有可能只是伴随关系。(28) 简单线性回归分析的基本步骤①绘制散点图,考察两变量是否有线性趋势及可疑的异常点;②估计回归系数与截距;③对总体回归系数或回归方程进行假设检验;④列出回归方程,绘制回归直线;⑤统计应用。(29) 简单线性回归是指只包含一个自变量,且呈线性变化趋势的线性回归模型,用于描述因变量的总体均数与自变量之间的线性关系,亦称两变量间的依存变化关系。在实际应用中,两变量间的关系应有实际意义,不要把毫无关联的两种现象作回归分析。(30) 简单线性回归方程包括截距与回归系数两个参数,通常采用最小二乘估计。(31) 通过对Y的总变异分解有助于理解简单线性回归分析的基本思想,即Y的离均差平方和(SS总)分解为回归平方和(SS回归)与残差平方和(SS残差)。(32) 线性回归分析的主要用途为预测与控制。在实际应用中,要注意回归方程避免外延,即简单线性回归方程的适用范围一般以自变量的取值范围为限,除非有充分理由证明在此范围外仍然有效,否则预测或控制不宜超出此限。(33) 当两变量变化趋势为非线性时,可考虑拟合非线性回归方程,常用的曲线类型包括指数曲线、多项式曲线、双曲线和logistic曲线等。(34) 多重线性回归是简单线性回归的拓展,用于研究一个反应变量与多个自变量之间的线性依存关系。多重线性回归在医学研究中常常用于筛选危险因素、控制混杂因素、分析交互效应、预测与控制等。(35) 多重线性回归分析的假定条件是线性、独立、正态及方差齐性。常常采用残差分析考察资料是否满足这四个前提条件。如果不满足前提条件,可以尝试对变量进行变换,引入交互作用项或者更换回归方程。(36) 多重线性回归分析中常常采用最小二乘法估计模型参数。多重线性回归分析中偏回归系数的含义是当其他自变量的取值固定时,自变量每改变一个单位,反应变量平均改变的单位数。标准化偏回归系数常用于比较自变量对反应变量的贡献大小。确定系数和调整的确定系数常用于评价模型拟合效果的好坏。对整个回归模型的假设检验一般采用方差分析,对各总体偏回归系数是否为零的假设检验常采用t检验。(37) 多重线性回归分析中筛选自变量的方法有前进法、后退法、逐步回归法和最优子集法等。用于筛选自变量的指标有残差平方和、残差均方、确定系数、调整的确定系数、Cp,统计量等。(38) 当自变量间存在较强的相关时,多重线性回归模型会出现多重共线性现象,使得模型参数估计值不稳定或不易解释。(39) 多重回归分析的一般步骤:①单因素方程分析;②逐步筛选变量,建立多因素方程;③综合单因素和多因素模型的结果,当两者矛盾时,结合专业知识分析原因。另外,要注意因素之间是否存在交互作用。(40) 实验设计主要有以下三点作用:合理安排各种实验因素和区组因素,以提高实验效率;控制和减少实验误差,以提高研究质量;通过较少的实验次数获取尽可能丰富的信息,以便由样本信息去准确地推论总体的规律性。(41) 为了保证实验的可靠性和可重复性,在实验设计中所用的随机化方法、随机数及产生随机数的程序、种子数等均应有记录。(42) 单因素设计和统计分析都比较简单,但实验效率较低,只能考察一个因素对观测结果的影响情况。各组实验单位数可以相等或不等,但不应相差悬殊。当两处理组比较时常用t检验或秩和检验,多个处理组比较时常采用相应设计定量资料的方差分析或秩和检验。(43) 配对设计能有效地降低来自个体差异对观测结果的影响,从而减小实验误差,提高实验效率。但采用配对设计时,要防止偏性,尽可能保持每对受试对象的均衡和齐同。配对的条件应当是本实验研究中对观测结果有重要影响的所有非实验因素的组合结果,而绝对不能随便选取一个非实验因素作为配对条件,那样只能是在表面上缩小了实验误差,其结果是容易增大结论犯假阳性错误的概率。(44) 随机区组设计是在单因素设计的基础上,多考虑一个区组因素。这个区组因素的不同水平反映了受试对象在重要的条件上的差异,若不将其排除,必然会影响对实验因素各水平之间差别大小的正确评价,即造成了两个因素效应的混杂。(45) 交叉设计平衡了实验顺序对结果的影响,并且能将处理间的差别与阶段间的差别有效区分开来,每个个体接受两种处理,节约了样本含量;但本设计不适用于具有自愈倾向或病程短的研究,每个个体在接受两种处理之间应有足够长的洗脱期。(46) 析因设计是一种比较常见的多因素实验设计。在实验研究中应用得比较频繁。一般来说,如果在实验设计中涉及的实验因素不超过5个,在专业上有必要考察因素之间的各级交互作用,每个因素的水平数比较少且每次实验花费较少、费时较短时,可以考虑使用析因设计。(47) 重复测量设计的主要优点是可以减少样本含量,能够有效地考察指标随时间推移的动态变化趋势。重复测量是在同一受试者身上进行的,因此,在不同时间点上观测指标的取值之间一般是不独立的,后一次测量结果可能受到前面各次测量结果的影响。因此,对同一个体在不同时间点上的测量值之间就可能存在相关关系,就需要用特殊的统计分析方法进行分析。(48) 调查研究是一种没有采取任何干预措施的研究工作,它主要是对客观存在的现象进行询问和观察,故调查研究又称为观察性研究,它被广泛地应用于生物医学、社会学及教育学等多个领域。(49) 调查研究的目的主要有描述、分析、检验假设、评价、预测。(50) 调查研究的步骤主要分三步:首先是设计阶段或准备阶段,包括发现和提出问题、复习文献、立题、调查设计;其次是现场调查工作阶段,包括预调查、收集数据资料;最后是资料整理、表达及分析阶段,包括整理分析资料、解释和交流研究结果。(51) 调查设计是对整个调查研究作出科学完整的计划,其目的是以较少的人力、物力和财力获取较丰富而可靠的资料,同时将各种误差降到最低限度,它主要包括:确定调查目的与指标,确定调查对象和观察单位,确定调查方法、调查设计类型、抽样方法和资料收集方式,设计调查表,估计样本含量以及调查的组织实施与质量控制。调查设计是调查研究中的第一道工序和重要环节,它的好坏直接影响到研究工作的质量。(52)调查表是调查工作中收集资料的最主要的测量工具,它主要是由一系列与研究目标有关的问题组成的问卷。调查表的构成有标题、调查项目(背景资料、研究项目变量、核查项目)、编码和填表说明。(53) 问卷调查表的评价方法主要有效度评价和信度评价,其中效度评价又包括表面效度、内容效度和结构效度,信度评价包括重测信度、内部信度(克朗巴赫a系数和分半信度)和测评者之间信度。(54) 常用的调查研究方法有:横断面调查,它又可分为普查和抽样调查(如单纯随机抽样、系统随机抽样、分层随机抽样、整群抽样和多阶段抽样);病例一对照研究;队列研究。(55) 常用的调查设计类型有:横断面调查研究设计、病例对照研究(回顾性调查)设计和队列研究(前瞻性调查)设计。(56) 调查研究中应注意的问题有:明确调查目的,制定周密的调查设计及问卷,考虑并规范调查所涉及的伦理道德问题,选择适当的调查方法、调查设计类型和抽样方法,重视预调查,加强调查研究全过程的质量控制。(57) 分析数值型变量的方法很多,读者应先确定研究的设计类型,据此选择合适的分析方法中常见的错误为:误将随机区组设计资料和析因设计资料用单因素方差分析或t检验方法分析分析过程随机区组设计资料(58) 析因设计资料很容易与完全随机设计资料混淆,读者应仔细辨别。与单因素方差分析相比,随机区组设计资料的方差分析可根据设计进一步分解变异,控制其他非处理因素对实验效应的影响。(59) 随机区组设计资料的方差分析不能分析因素间的交互效应,而析因设计资料则既可以分析因素的主效应,也可以分析其单独效应和交互效应。(60) 分析随机区组设计资料和析因设计资料时应注意资料是否满足方差分析的条件,若资料不满足方差分析的条件,可经变量变换使之满足条件,然后再用方差分析的方法分析之,或用非参数检验的方法分析之。(61) 当球形检验的P小于0.1时,重复测量的各个时间观察点资料之间的方差齐性或不同组别的方差齐性不满足,只能用SPSS的重复测量专用模块,并且选用校正自由度的Greenhouse-Geisser检验统计量及其对应的P值作统计推断。(62) 在重复测量资料的统计分析中,当存在交互作用时,可以推断对于不同重复测量时间点的两组所对应的两个总体均数之差是不全相同的,但进一步作两两比较的统计分析比较复杂,建议请专业的统计工作者帮助进行统计分析。(63) 如果在重复测量资料的统计分析中,交互作用项没有统计学意义,可以在方差分析中仅引入主效应项,可以增大检验效能,并且还可以使各个时间点的两两比较简单化,但即使没有交互作用时,对于多组情况下的组间两两比较仍要谨慎。所以,许多研究者当统计结果显示存在交互作用时,一般采用作图作趋势分析,得到大致的统计推断。(64) 在两阶段的交叉设计研究中,不存在延滞效应与处理效应的交互作用,但在多阶段的交叉设计研究中(如三阶段交叉设计研究等),要考虑延滞效应与处理效应的交互作用,否则可能导致效应估计偏倚。(65)Logistic回归适合因变量为分类变量的研究问题,自变量可以是定量变量、有序或无序分类变量。对于定量变量,如果与因变量logit π呈线性关系,以定量变量形式引入方程分析最佳,否则,应离散化并以哑变量形式引入方程分析;有序多分类自变量,可以先以哑变量形式进行分析,如果相邻等级间优势比近似恒定常数,则可对有序分类变量适当赋值,以离散型定量变量引入方程分析;对无序多分类变量,必须以哑变量形式引入方程,并且在变量筛选中整体进/出方程。(66) 按照回顾性病例对照资料建立的logistic回归方程以及条件logistic回归方程,因不能估计事件概率,或因变量预测值不是概率值,不宜应用Hosmer-Lemeshow检验判断方程拟合效果。(67) 似然比检验是logistic回归分析中非常有用的一种检验方法,主要用途有三:①用于回归方程整体拟合优度检验:通过与常数项方程比较,以判断所建立回归方程有无统计学意义,似然比检验统计量的自由度等于回归方程中自变量的个数-1;②用于检验单个变量回归系数βi是否等于0:在已有的回归方程中剔除某自变量Xi,并据此计算相应似然比检验统计量,判断总体回归系数是否为0,似然比检验统计量自由度等于1;③用于回归方程优选:对于两个不同的回归方程,如果一个方程所有自变量包含在另一个方程中,这时可以用似然比检验,以判断何者拟合效果更优,其似然比检验统计量的自由度等于两个方程自变量个数的差值。似然比检验特别适用于无序分类或按无序分类处理的自变量的logstic回归方程。如果两个比较的方程自变量没有嵌套关系,自然就不能使用该方法。(68) 极大似然估计要求个体的结局事件发生与否独立、同分布,所以,对于传染性较强的疾病,不能采用logistic回归方程研究其发病与否的危险因素,或是用于发病概率的预测。——以上资料来源:方积乾《生物医学研究的统计方法》,如有侵权,请联系作者及时删除
生物医学研究的统计方法本书是生物医学研究生使用的经典统计教材,内容易懂经典,无需多少数学基础都能看懂。本书每个章节后面都有常见疑问,现汇总以供大家学习。--------------------------------------------------------------------------------------(1)如何确定研究总体与样本?总体的定义告诉了我们,总体是根据研究目的确定的同质研究对象的全体,也就是说确定什么样的总体与下列因素有关:①研究的目的是什么;②研究对象是否同质(即使非处理因素尽可能相同);③是否为研究对象的全体。样本是从总体中抽取的部分研究对象,确定样本应该注意:①样本是总体中的部分研究个体;②样本是能代表总体的样本。相对样本而言,总体应该是“无限总体”或相对的“无限总体”(比如,在样本含量足够的前提下,样本个体数小于总体个体数的500),这是统计学推断的理论基础;如果总体不大,为“有限总体”,则数据分析的主要方法是统计描述;如要进行统计推断,则应对有关指标进行校正。(2)何为连续变量与离散变量?可以在某一区间取任何值的变量就是连续变量,当测量精确度很高时,理论上数据之间无“缝隙”。数据之间存在“缝隙”的变量就是离散变量,如家庭人口数、脉搏跳动次数(次/min)、红细胞计数等,离散变量只能取有限的几个值。定量变量之中,有的属于连续变量,有的属于离散变量;但定性变量只能是离散变量。(3)不同的编码方式,所得结论相同吗?以上提到可将“文化程度”中的文盲、小学、中学、大学(假定为有序变量)及以上分别编码为1,2.3,4,或按读书年数编码为0,6,12,16。无论哪种编码,所得统计学分析的结论(如假设检验所得概率值)应该是一致的,但获得的某些统计量(如回归系数、优势比等)有可能不相同。(4)用恰当指标对定量资料进行统计描述,需要了解变量的分布形式。在实际工作中,是怎样明确变量的分布形式的?变量的分布形式,常可以通过查阅文献得到。例如,文献报道中学生的体重、肺活量服从对称分布,其发硒含量则为正偏峰分布,那么,我们就可以沿用文献的做法。特别当参考文献中的研究是基于大样本时,一般认为变量的分布形式可以直接参照。如果在相关文献中未查到某医学指标的分布规律,而该指标又是我们感兴趣的变量,那么就可以在大样本基础上,借助SPSS等统计分析软件对资料分布形式作统计检验。(5)呈现事物的发展变化速度时,为什么要用半对数线图,而不能用普通线图?在用普通线图表示事物随时间变化而变动的情形时,线条纵向波动的位置仅反映了被研究指标在相应时间点上取值的大小。例如指标取值发生“10→100→1000”的变化时,给读者的提示是,第一阶段增加幅度为90,第二阶段增加幅度为900,第二阶段的增加幅度大于第一阶段。但是,有时研究者欲传达事物演变的变化倍数,例如前述指标在第一阶段发生了“增大到原来的10倍”的变化,而第二阶段也发生了“增大到原来的10倍”的变化,两个阶段变化的倍数相同。普通线图可以直观反映变化的“增量”,却不能描述变化的“倍数”。这时需借助半对数线图,将纵轴的尺度进行对数变换,使得“10→100→1000”的变化成为“1→2→3”,两个阶段的变化幅度均为1,准确地传达了“变化的倍数均为10”这一信息。(6)如何判定一组数据是否符合正态分布?判定一组数据是否符合正态分布,通常有如下几种方法:①根据文献报道。例如,文献报道中学生的体重、肺活量服从正态分布,那么我们可以沿用文献的做法。②根据经验或专业知识判断。例如,根据专业知识,同性别健康成人的红细胞数、血红蛋白含量、脉搏数等都近似服从正态分布,而正常成人的血铅含量近似对数正态分布,经对数转换后应近似服从正态分布。③可以借助统计软件对资料作正态性检验或拟合优度检验。(7)对称分布在“X士1.96S”的范围内,也包括95%的观察值吗?不一定。“均数士1.96标准差”范围内包含95%的变量值是正态分布的分布规律,不是对称分布的分布规律。对称分布不一定是正态分布。(8)如何判定一组资料是否符合Poisson分布?Poisson分布是离散型分布,变量的取值为非负整数,它是描述单位时间(面积、空间)内某罕见事件发生数的概率分布。实际应用中,如果某罕见事件的发生数满足Poisson分布的应用条件,如水中细菌数、单位空间中的粉尘数、单位时间内放射性物质的脉冲数等,都可认为服从Poisson分布。另外,还可以对资料进行Poisson分布的拟合优度检验。(9)何谓置信区间的准确度与精确度置信区间有准确度(accuracy)精确度(precision)两个要素。准确度由置信度(1-α)的大小确定,即由“此区间包含总体参数”这句话可信程度(1-α)的大小来反映,从准确度的角度看,置信度愈接近于1愈好,如置信度99%比95%好;精确度是置信区间宽度的一半,意指置信区间的两端点值离样本统量的距离。从精确度的角度.看,置信区间宽度愈窄愈好。在抽样误差确定的情况下,两者是相互矛后的。若提高了置信度.即α减小。则检验统计量界值增大,置信区间变宽. 从而导致精确度下降;反之,降低置信度,即降低准确度,可适当增加置信区间的精确度。为了同时兼顾置信区间的准确度与精确度,可适当增加样本含量;在置信度确定的情况下,增加样本含量可降低抽样误差,从而缩小置信区间范围,提高参数估计的精确度。(10)置信区间与参考值范围有什么区别?总体均数的置信区间与个体值的参考值范围无论在含义、用途还是计算上均不相同。实际应用时,不能将两者混淆,详见表1表1,置信区间与参考值范围的区别(11)标准差与标准误有什么区别与联系?标准差反映个体观察值围绕均数的散布程度,即反映个体值彼此之间的差异。标准误反映样本统计量(如样本均数)围绕总体参数(如总体均数)散布的程度。根据公式,标准误小于标准差;样本含量越大,标准误越小;但标准差不随样本含量的改变而有明显方向性改变,随着样本含量的增大,标准差有可能增加,也有可能减少。如果需要反映个体的变异程度大小,应采用标准差;如果需要反映由样本统计量估计总体参数的精确程度,应采用标准误或95%置信区间。其区别与联系可小结为表2。表2 标准差与标准误的区别与联系(12) 如果样本来自有限总体,如何作统计推断?统计学推断建立在无限总体的基础之上,如果样本所来自的总体为有限总体(如样本含量n大于5%倍的总体含量N),则前面的标准误计算公式应作适当修改,如样本均数的标准误计算公式应改为样本均数的标准误计算公式样本频率的标准误计算公式应改为样本频率的标准误计算公式其中N为总体中个体的含量,(N-n)/(N-1)称为有限总体校正因子。当样本含量n接近有限总体含量N时,(N-n)l(N-1)接近于0,相应的标准误也接近于0。在绝大多数情况下,目标总体是有限总体,如果总体含量N相对样本含量n很大,此时有限总体校正因子十分接近于1,因此通常情况下可忽略此项。仅当样本含量n大于5%倍的总体含量N情况下,才采用上述公式进行计算。(13) 假设检验中α与P有何不同?α为决策者事先规定的“小概率值”(各种科研杂志习惯上采用0.05或0.01)。在零假设成立的情况下,如果检验统计量取当前值以及取值更不利于H0的概率小于或等于α,则可以认为:在零假设成立的情况下,不大可能在某一次抽样研究中出现当前的事件;但当前的事件居然发生了,我们不禁怀疑零假设是否真的成立,从而拒绝H0推断H1成立。所谓P值是指在H0成立的前提下,出现目前样本数据对应的统计量(如Z、t、F值等)数值乃至比它更极端数值的概率。P值也是一个随机变量,即不同的样本可得到不同的P值。(14)通过假设检验得到P>α.能否说明接受H0时犯错误的可能性很小?不能,因为假设检验时,只是确定犯I类错误的概率a,可以按小概率事件拒绝H0,而不知道犯Ⅱ类错误的概率β,所以不能说明接受H0时犯错误的可能性很小(15)通过假设检验得到P值很小,能否说明比较的总体均数相差很大?所谓P值,是指在H0成立的前提下,出现目前样本数据对应的统计量(如Z、t、F值等)数值乃至比它更极端数值的概率。它不但与均数实际值的差距有关,还与抽样误差的大小有关,所以不能单从P值的大小判断总体均数差距的大小。(16)进行两样本均数比较的t检验时,假设检验结果P值越小,则说明两个总体均数相差越大吗?假设检验中,P是指H0成立时出现目前样本情形的概率最多是多大,P值越小,说明如果H0为真,则“不大可能”出现目前的情况,即有理由怀疑H0为真的无效假设,因而拒绝H0,接受H1,即两总体均数间存在着差值。所以,P值越小越有理由认为两个总体间存在着相差,但并不能反映两个总体均数相差的数值大小。(17)单侧检验较双侧检验更易检验出差别,是否应在假设检验中尽量选用单侧检验?当自由度和检验水准一定时,单侧界值小于双侧界值,所以更容易得出差异性的结论,但并不能因此就选用单侧检验。单双侧的选择要结合专业知识:如果研究者关心的是甲乙两组所属总体均数(或者总体率)有无差别,即甲可能高于乙,乙也有可能高于甲时,一般选双侧;若根据专业知识,甲不会低于乙时,或者研究者仅关心其中一种可能时,可选用单侧。一般来讲,双侧检验较为稳妥。(18)既然秩和检验对资料没有严格的要求,是否在进行两组间均数比较时可直接采用秩和检验?这样做不能认为是错的,但不是最好的分析策略。秩和检验对资料没有严格的要求,但满足正态分布条件时其检验功效比t检验的检验功效低一些,所以通常只用来对偏峰分布资料进行假设检验。(19) t检验能否用于多组间均数的比较?t检验主要用于两组间均数的比较,多组间均数的比较若采用t检验,会增大犯I类错误的概率。所以,多组间均数进行比较时应首先考虑方差分析及SNK,LSD等多个样本均数的两两比较技术(详见方差分析)。(20)如何理解假设检验中的大样本和小样本?为什么样本量较大时不必进行正态性检验?在假设检验中,大样本和小样本只是相对于资料的偏峰程度而言的,偏峰程度越大,要求样本量就越大,但一般情况下,当样本量大于50时,可以理解为样本量较大。此时,即便原始变量X有些偏离正态,其样本均数也会近似正态分布。因此,对大样本资料可以不必进行正态性检验。(21)在成组t检验中,当P<0.05并且时,为什么就能推断?在成组t检验中,当P<0. 05并且,则可以证明的95置信区间的下限大于0,由此在95%置信度的前提下,推断;同理,当P<0.05并且时,则可以证明:的95%置信区间的上限小于0。,由此在95%置信度的前提下,推断。(22)为什么不宜直接对多组定量资料进行方差分析?进行方差分析的数据应满足两个前提:①各样本是相互独立的随机样本,均服从正态分布;②各样本的总体方差相等,即方差齐性(homogeneity of variance)。因此,对多组定量资料进行方差分析首先要进行方差齐性及各样本的正态性检验,符合方差分析的条件再行方差分析及必要时进一步的两两比较。否则,若不满足方差分析条件,则需作数据变换,使其满足方差分析的条件,或选Kruskal-Wallis秩和检验。(23)若三个样本均数的比较经ANOVA分析有统计学意义,在多重比较中出现了“不拒绝μ1≠μ2,也不拒绝μ1≠μ3,但拒绝μ2=μ3”的结果,该结果应如何解释?为什么?按假设检验的基本原理,该结果可解释为:有理由认为μ2≠μ3,但还没理由认为μ1≠μ2及μ1≠μ3。因为统计结论在一定概率意义下成立,不能按确定性数学方式递推。该结果既不能解释为:μ1介于μ2和μ3之间;也不能递推为:μ2=μ1,同时μ1=μ3,那么μ2=μ3。(24)是否一定要经ANOVA发现有统计学意义后,再作均数间的两两比较?一般地说,经ANOVA发现有统计学意义后,再作均数间的两两比较,但不是绝对的。实际上,这种ANOVA发现有统计学意义后,再作均数间的两两比较属于事后未计划的比较。均数间两两比较的方法很多,有十余种之多。并且也不很成熟。有些统计学专家提出某些多重比较可不依赖方差分析的结果。另外,在分析资料时有时会出现ANOVA有统计学意义而两两比较均无统计学意义,或ANOVA无统计学意义而两两比较某些均数间有统计学意义的现象,这两种现象往往发生于算得的P值在规定的检验水准α附近,下结论时需特别谨慎。(25)多重比较的方法很多,可否各种方法都用一用,哪个方法给出的P值好,就报告哪个方法的结果?多重比较的方法很多,多重比较时甚至会出现某些方法间(如Bonferroni法与LSD法)统计结果不一致现象,这实际上涉及多样本均数两两比较方法选择的问题。要根据研究的目的选择两两比较的方法。当在设计阶段就根据研究目的或专业知识而计划好某些均数间的两两比较、用于探索性研究时,可选用LSD法,即选用LSD法结果。LSD法灵敏度比较高,但Ⅰ类错误可能会增大,适用于组数g较小且仅对某些特定的组间比较感兴趣时; 当在研究设计阶段未预先考虑或预料到,经假设检验得出多个均数不等的提示后,才决定多个均数的两两比较时可选用Bonferroni。Bonferroni法比较简单,广泛应用于不同场合的两两比较,但结论比较保守,可用于证实性研究。因此,多重比较各种方法都用一用选P值的做法是不妥的。(26)当例数较少或理论频数较小时,为什么要用校正χ2检验或Fisher精确检验因为χ2检验统计量的抽样分布是矩形分布,χ2分布为连续性分布。利用χ2检验统计量进行列联表差异性检验时是通过用χ2分布作为χ2统计量分布的近似方法进行的。χ2统计量计算结果往往较大,特别是在自由度较小、样本量较少情况下。因此Yetes提出了校正的方法。在实际应用中,当样本含量大于40,理论频数都大于5时,χ2统计量近似性较好,可以不进行校正;但是当存在理论频数小于5时,近似性较差,需进行校正;当例数小于40或存在理论频数小于1时,近似性更差,因此主张改用更合适的Fisher精确检验代替χ2检验。(27)对于多组二分类资料和无序多分类资料,能否通过转化为多个四格表资料分别进行检验?对于多组二分类资料和无序多分类资料,若转化为多个四格表资料分别进行检验,割裂了原来的设计,更重要的是会增加犯Ⅰ类错误的概率。例如对于3X3列联表,检验水准取0.05,若转化为多个四格表资料分别进行检验,应进行9次检验,这样犯Ⅰ类错误的概率将达到1-((1-0.05)9=0.37,远远大于0.05。因此,对于多组二分类资料和无序多分类资料,不能通过转化为多个四格表资料分别进行检验。当多组二分类资料和无序多分类资料检验结果拒绝假设H0时,可以进一步作两两比较,但α水平需要按α/比较次数来校正。(28)对于有序多分类资料,用无序多分类资料方法进行差异性检验会出现什么问题?因为列联表χ2检验的χ2统计量只能处理频数分布的差异性检验,没有处理有序信息的能力,不能利用数据所提供的有序信息进行分析。因此,若使用无序多分类资料分析方法进行有序多分类资料的差异性检验,将会降低统计检验效能。(29) 是否所有资料皆可作相关分析?只要输入数据,电脑就可以进行相关系数的计算,但这不表明任何资料皆可进行相关分析。相关分析要求两变量皆为随机变量,如果X是人为取值,则不宜计算相关系数。计算Pearson相关系数还要求资料为双变量正态分布。同时应注意,资料类型不同,所采用的刻画相关或关联的方法也不同。(30) 程序中自动给出了相关系数值和假设检验结果,为什么还要作散点图呢?的确,有不少研究不作散点图就给出相关系数值和假设检验的结果,但这样做可能会出现两变量间实际没有线性关系而作出线性相关的决定,也可能不容易发现资料有异常值或有分层的情况等。因此,相关分析必须先作散点图,确认有线性关系时才计算相关系数,并对其进行检验。(31) 若两组比较某指标的均数不同,是否可以说明该指标与分组因素相关?要注意“相关”是一个专业用语,有特定的含义。仅均数不同不能认为相关,若各组均数差别有统计学意义,可以认为不同组间总体水平不同。通常所说的“某指标的均数与分组有关”和统计学所说“某指标与分组变量间线性相关”是两个不同的概念。线性相关的结论必须通过相关分析或关联分析才可得到,而分组因素常人为划定,非随机变量,不可作相关分析或关联分析,即便作了计算,也不能得出相关的结论。(32) 经统计检验得出总体相关系数不为0,且P值很小,是否可以认为变量间关系很大?统计检验的P值是指总体相关系数为0时,得到等于或大于目前这个样本相关系数的概率大小。若P值小,说明总体相关系数为0时,不大可能得到目前这个样本相关系数,从而怀疑总体相关系数是否为0。不论P值多么小,结论只能是总体相关系数不为0而已。样本量小时,样本相关系数值很大也可能得出没有统计学意义的结果;反过来,样本量大时,很小的样本相关系数值也可以拒绝零假设。如样本量大于50时,r=0.279就可以得到P<0.05的结果,而样本量为5时,即使r=0.870时仍得到P>0.05的结果。(33) 既然Spearman等级相关对资料性质没有要求,是否所有资料皆可用等级相关?文献确有把Spearman等级相关当成万能相关方法。不管什么样的资料都可用Spearman等级相关方法,但这样做的结果会损失信息,降低功效。因此,应根据资料类型和适用条件选用相关强度指标。当两变量为连续型随机变量时,通常采用积矩相关系数。(34) 计算Spearman等级相关系数时,怎么有人采用公式?实际上,无相同秩次时,此公式与利用秩次采用Pearson相关系数的公式计算时完全等价,但有相同秩次时一般不宜用此公式。此公式为过去计算机不甚普及时推算出的无相同秩次的简便计算公式,有相同秩次时需要校正。(35) 多组比较的RX2表或RXC表和本章的RXC表在设计上有区别吗?多组比较的Rx2表或RXC表,属于完全随机设计资料。多组资料比较的设计是,首先设定组别(如三种国籍人群),各组例数的调整不受其他组别的影响,然后调查各组的频率分布(血型分布)情况,分析各组(三种国籍)的频率分布(血型分布)是否不同。本章的RXC表资料是一次调查的结果,可看作是总体中的一份样本,其样本含量<2500例)是固定的,某属性之一(如国籍中美国人)的例数变动必使该属性其他分类(如国籍中中国人和挪威人等)的例数反向变动,统计时按两种属性(国籍和血型)交叉分类统计频数,得到两种属性是否独立的结果。(36) 如何识别与处理异常点?在实践中,科研工作者鉴别数据中的异常点是进行统计分析前首先要完成的一项工作,否则会导致错误而前功尽弃,得不偿失。有些“统计谎言”正是由于分析者疏忽异常点的存在,夸大或弱化实际效应而造成的,如图10-10,虚线代表受异常点影响而偏离的回归线。异常数据的识别可以通过简单、直观、有效的散点图发现,也可以通过相关统计量(如广义平方距离)获得。通过散点图可直观地反映哪些数据是可能的异常数据。一旦发现可能的异常数据,不宜草率地删除,应该仔细审查这些可能异常数据的获得过程。若是由实验获得的,如有可能应该重新在该点重复作几次实验进行验证。只有当异常数据是由于实验失误、记录错误等人为因素造成的,才考虑删除或以重新测量的正确数据来替代。如果通过仔细审核发现数据的异常值是因数据本身性质造成的,对这样的数据应该引起足够的重视,对它进行另外的研究有可能获得意外的发现。(37)两变量不是线性关系时怎么办?在复杂的生物医学现象中,很多情况是两个变量间的关系呈非线性变化趋势,如血药浓度与时间效应曲线、生长曲线、剂量反应关系等。对于非线性的问题,如果仍一味采用简单的线性回归分析,其直接后果是歪曲实际的变化规律。实际工作中,采用曲线拟合的方法,常用的曲线类型有:1)指数曲线 又称指数生长曲线,双变量资料中,当自变量X增加时,因变量Y随之增加(或减少)得更快,这时可采用指数曲线方程来分析两变量之间的关系。2)多项式曲线 多项式曲线方程为抛物线性,当为一次时则为简单线性模型,模型中加人b2X3、b3X3项,则为二次、三次多项式曲线。多项式适合于标准曲线的绘制。3) Logistic曲线 又称Pearl-Reed曲线,呈拉长的“S“形曲线,多用于发育、动态率、剂量反应关系以及人口等方面的研究,在后面章节中讲到的logistic模型即属于此。4)双曲线与指数曲线相类似,但适用于弯曲程度更大的资料,如肌肉张力、神经生理方面强度一时间数据的分析。SPSS软件可以实现更多的曲线拟合,方便科研工作者应用。实际工作中,应根据散点图尝试拟合多种曲线。如何确定最终的曲线类型,要掌握以下原则:① R2越大,拟合效果越好。但不必过度地追求好的拟合优度,如拟合多项式模型时,虽幂次越高,R2越大,但会给解释上带来麻烦。②要考虑曲线类型是否符合专业解释。③在拟合优度相近的情况下,一般选择容易解释、易于表达的曲线类型。,(38) 两批数据能合并后拟合线性回归方程吗?实际工作中,常有X与Y变量来自于两批数据,不能轻易将两批数据合并后进行回归分析,所分析样本应保证来自一个总体(即保证同质)。如果两批数据来自两个不同的子群,可能得出不符合实际的结论。如图10-11所示,实点与虚点分别代表两批数据,图10-11a中实际不存在的回归关系,合并后被误认为有回归关系;图10-11b有可能存在回归关系,合并后会被误为无回归关系。在此,两个子群成为影响回归关系的混淆因素。电脑实验(实验10-4)中对盲目合并数据误导专业结论的情形进行了数据模拟分析。对这类数据需要进行分组分析或在多重线性回归分析中引入交互项的办法来分析处理,分析方法参见第11章。(39)如果反应变量是有序的或分类的变量,应该怎么办?多重线性回归分析要求在固定自变量的情况下,反应变量Y是服从正态分布的连续型随机变量(也就是残差服从正态分布),如血压值、身高、体重等。但是,在医学研究中,一些反应变量往往是分类变量。例如,心功能的分级就是一个有序分类变量,虽然各级之间有程度上的差别,但是1级(体力活动不受限制)和2级(体力活动轻度受限)之间的差别并不等同于3级(体力活动明显受限)和4级(不能从事任何体力活动,休息时亦有症状)之间的差别。也即这里的数字1,2,3,4仅仅代表不同的等级,并不代表实际的数量大小。另外,无序的分类变量在医学研究中也很常见,例如治疗的结局分为治愈和死亡。当反应变量是有序或无序的分类变量时,不能采用多重线性回归对资料进行多因素分析,可以考虑采用logistic回归等其他多因素分析方法。(40)自变量存在缺失数据时怎么办?进行多因素分析时,如何处理缺失数据是一个常见的问题。所谓缺失数据,常指观察对象在某些变量上的数值缺失,例如缺少年龄、性别或者血压值等方面的信息。缺失的原因可能是偶然的、随机的,如调查时由于疏忽漏填了;也有可能是系统性的,如由于疾病恶化而没有提供信息。对于有缺失数据的观察对象,不能简单地删除。人们针对缺失数据常见的处理方法是:1)尽量了解缺失的原因,尽量弥补缺失的数据。2)对每个自变量考察缺失数据的多少。3)如果有一两个自变量的缺失数据较多,考虑删除该自变量。无论自变量在专业上意义如何重大,如果存在大量的缺失数据,则结果极可能存在偏倚。4)如果极少的观测有缺失数据,可以在分析前删除这些观测。5)如果大量观测有缺失数据,应该分析有缺失数据的观测和没有缺失数据的观测之间的差别,也即考察缺失的原因是随机的还是非随机的。如果有缺失数据的观测组成的样本的基本情况与没有缺失数据的观测组成的样本的基本情况无差别,则称数据的缺失是随机的,反之,为非随机缺失。如果数据的缺失是随机的,可以采用完全数据的均数填补缺失数据。如果数据的缺失是非随机的,应分别分析有缺失数据的观测组成的样本和没有缺失数据的观测组成的样本资料,且下结论需慎重,以防止偏倚。(41) 自变量筛选是必须要做的吗?前面介绍了多重线性回归分析中自变量筛选的统计学标准和筛选策略,那么在实际应用中自变量的筛选是必须要做的吗?有时并不是必须要做的,有时又是必须要做的。是否进行变量的筛选取决于专业的理论、经验以及资料的实际情况。最后得到的模型不仅要符合统计学的要求,更重要的是从专业上得到合理的解释。(42)如何判断是否存在多重共线性一种简单的方法是计算所有自变量的相关系数矩阵。如果两个自变量之间的相关系数超过0.9,则会带来共线性的问题;如果相关系数在0.8以下,一般不大会出现问题。另外,统计学家还提出了两个帮助判断是否存在多重共线性问题的统计量,它们分别是方差膨胀因子(variance inflation factor, VIF)和容忍度(tolerance)。下面简单介绍VIF的原理和计算方法。假定有p个自变量,依次把每一个自变量当作反应变量与余下的p-1个自变量进行多重线性回归分析。表示当第j个自变量被当作反应变量时多重线性回归方程的确定系数,j=1,2,…,p。针对每个多重线性回归方程,VIF定义为:如果第j个自变量与余下的p-1个自变量相关密切,则接近于1,VIFj会较大。研究结果提示,当VIF>4时,可能存在共线性问题;如果VIF>10,则共线性问题严重。容忍度是VIF的倒数,因此如果容忍度小于0.25,则可能存在共线性问题,如果容忍度小于0.10,则提示共线性问题严重。(43)如果实验条件满足配对设计要求,研究者却采用了成组设计,这将意味着什么?如果实验条件不满足配对设计要求,研究者却一定要套用配对设计,又将意味着什么?如果实验条件满足配对设计要求,即能够找到对观测结果有影响的重要非实验因素,而且受试对象可以按此非实验因素进行配对,此时研究者却采用了成组设计,这将意味着人为增大了实验误差,易导致假阴性结果的出现;如果实验条件不满足配对设计要求,即无法找到对观测结果有影响的重要非实验因素,此时研究者却一定要套用配对设计,实际上各对受试对象除处理因素取不同水平外,在其他方面相差悬殊,若按配对设计方法处理实验数据,将意味着人为降低了实验误差,易导致假阳性结果的出现。(44)单因素设计简便易行,可以通过随机化方法平衡其他因素对单因素各水平组中观测结果的影响,是否可以不考虑任何多因素实验设计方法?在进行实验设计时,通常涉及两类因素。其一,研究者关心的实验因素;其二,研究者不关心但客观上会影响观测结果取值的因素,比如区组因素。当某实验仅涉及多个实验因素,且实验因素的数目大于等于2时,若在实验设计时将其他实验因素控制在各自特定的水平上,每批实验只允许一个实验因素取不同水平,即采用单因素设计取代多因素设计的作法是不够妥当的。若希望通过实验研究,弄清多个实验因素之间的相互关系,通常情况下以选用析因设计为宜。(45)在实验设计中,对照组的设立十分重要,一般来说,应设立几个对照组合适?在实验设计中,应设立几个对照组不便一概而论,主要取决于实验研究的目的和涉及的实验因素的个数。①如果是标准的单因素多水平设计,通常只需要设立一个对照组即可。例如,希望考察某药物取小、中、大三个剂量所产生的疗效之间的差别是否具有统计学意义,当对此药物的疗效一概不知时,需要设立一个空白对照组,即采用单因素4水平设计;当已知该药开始起效的最低剂量时,可以不设立空白对照组,该药物的小、中、大三个剂量组互为对照,即采用单因素3水平设计即可。②在某些实际问题中,有人常设立多个对照组,如正常(或空白)对照组、模型对照组、阳性药对照组,其他是研究者所研究的新药取几个不同剂量的实验组。③如果是标准的多因素实验设计,所有组都有其特定含义,往往是同一个实验因素各水平组之间相互对照,如多因素析因设计。(46) 在实验设计中,如何根据情况选用合适的实验设计类型?这是一个比较复杂的问题,只能概括地讲一下选用的基本原则。如果在实验中研究者关心的实验因素只有一个,来自受试对象的各种重要的非实验因素的影响可以通过完全随机化方法使之在实验因素各水平组之间达到均衡一致,则可以选用单因素k水平设计((k=2时为成组设计,k=3时为单因素多水平设计);如果在实验中研究者关心的实验因素只有一个,但来自受试对象的各种重要的非实验因素的影响无法通过完全随机化方法使之在实验因素各水平组之间达到均衡一致,则应考虑选用随机区组设计或交叉设计;如果在实验中研究者关心的实验因素的个数大于等于2,来自受试对象的各种重要的非实验因素的影响可以通过完全随机化方法使之在实验因素各水平组合之间达到均衡一致,则可以选用析因设计。析因设计需要的实验次数较多,如果实验经费、时间和人力等都很难达到要求,可考虑选用其他多因素实验的设计方法,请参阅实验设计专著。(47) 在进行新药临床试验时。无论从形式还是从内容上,都严格按我国《新药注册管理办法》中明文规定的要求去做,是否是最正确的?由于相当多的研究者对Ⅱ、Ⅱ期临床试验的本质理解不够深入,又由于国家审评部门对新药临床研究的要求过于简单和格式化,导致绝大部分临床试验都照搬《新药注册管理办法》的基本要求,试验方法和类型千篇一律,无法妥善处置可能遇到的特殊问题。应该采取实事求是的态度,在原则问题上严格按国家有关规定办理,而对于各种情况下遇到的具体细节问题,应从多种处置方案中选择最优者。(48) 在进行新药临床试验时,可否直接按我国《新药注册管理办法》中明文规定的样本含量的最低要求来确定样本含量?多数临床试验没有进行样本含量估算,而仅仅按照《新药注册管理办法》对病例数的最低要求来做,致使一部分研究不能得到有说服力的结论。应根据预试验或借鉴他人经验信息,获得有关本试验研究所需要的基本信息,选用合适的估计样本含量的公式或专业软件估计出样本含量N。当估计出的N大于《新药注册管理办法》对病例数的最低要求时,就以N为样本含量;反之,应按《新药注册管理办法》对病例数的最低要求确定样本含量。(49) 在进行新药临床试验时,如何正确选择评价指标?评价指标的选择是临床试验的核心问题,应当在清晰确定临床试验目的的基础上,根据临床医学专业知识,选择最恰当的评价指标。应当充分重视终点指标和实验室替代指标,慎重使用综合指标和难以定量的指标(主观性指标),切忌试验目的不明确,以多指标为主要评价指标的大撒网式研究。(50)在进行与中药有关的新药临床试验时,应着重考虑的问题是什么?中药作为中国创新药品的重要源泉,其临床试验在评价指标选择和评价方法上存在很多争议,致使中药临床试验结论很难与西医或国外进行沟通。因此,应着重考虑的问题是评价指标的选择和评价方法的确定,即评价对象和评价工具保持一致,才有可能相互比较、沟通和理解。(51)在进行新药临床试验时,数据管理至关重要,应在哪些方面把好质量关?目前在中国的临床试验中,数据管理的三个要点(准确、及时和安全)难以高品质地实现。在这方面,应进一步提高认识,建立健全操作规程,严格按操作规程进行质量监督和检查。(52)临床试验质量控制非常重要,它包括哪些方面呢?通常,临床试验质量控制包括检查、稽查、视察、研究者控制、数据管理和统计分析控制,在这些方面,我国的临床试验质量控制水平尚没有达到国际要求,存在着试验数据有可能失真的隐患。(53) 在调查研究中,如何控制和保证调查质量?在调查研究中,主要从以下几个方面进行质量控制,以保证调查结果的可靠性:1)现场调查工作阶段的质量控制。2)资料整理、表达与统计分析阶段的质量控制。3)偏倚的控制。(54)在调查敏感性问题时,如何能获得比较真实的答案?在调查研究中,有时需要了解一些隐私问题(包括心理、行为、与“性”有关的问题等)。当询问此类问题时,调查对象往往不愿意回答或给出的答案是不真实的,这类问题统称为敏感性问题。在调查敏感性问题时,要想获得比较真实的答案,需要打消调查对象的思想顾虑。首先,调查表或问卷上应当是无记名的;最好调查者不在现场,在一个未安装监视器的大厅内(室内外无其他人),调查对象将填好后的调查表投人加锁的投票箱内;更让调查对象放心的方法是他们回答的是敏感问题还是非敏感问题,调查者一概不知,更不用说他们对敏感问题作出的是肯定还是否定的回答了,实现后者的调查技术需要较深的概率论知识。(55) 希望说明一种新药物或新疗法是否优于常规药物或疗法,请问:我应当采用多大的样本?这是相当多的研究者在进行科研工作之前经常提出的问题,但又是无法回答的问题。因为估计样本含量需要很多信息,第一,要知道所作的研究属于何种研究类型,实验设计、临床试验设计和调查设计所用的样本含量计算公式是不完全相同的;第二,即使是实验设计,还涉及拟解决问题的复杂程度;第三,需要给定与拟解决问题对应的一些基本信息。凭空估算样本含量是没有科学依据的,因而也是无意义的。(56) 样本较小时结论不可信,是否样本特别大时结论就一定可信?不一定!要看拟解决的问题的复杂程度和对重要非实验因素的控制质量。若实验研究涉及多因素多水平设计问题,即使总样本含量特别大,但分到每个小组中去的受试对象的个数却很小时,其结论仍是不可信的;若实验研究涉及单因素多水平设计问题,但由于许多重要的非实验因素对实验因素各水平组的影响很不均衡,即使各组样本含量均较大,其结论也是值得怀疑的,甚至是错误的。(57)是否有办法使一项科研工作的结论同时犯假阳性错误和假阴性错误的概率都很小?比较好的办法是: 提高统计研究设计的质量和研究过程的质量控制水平,同时,使各小组具有足够的样本含量,组间具有很好的均衡性。(58) 我不想论证两种药物疗效之间的差别,而是想说明两种药物效果差不多,从而一种较便宜的药物便可以取代另一种较昂贵的药物,这时,样本量该怎么考虑?此时,研究的目的叫作“等效性检验”,应根据此类检验对应的样本含量估计公式进行估计,请参阅有关专著。(59) 对于一个随机区组设计资料,我们既用单因素方差分析,也用两因素方差分析,发现假设检验的结论一致,难道用单因素方差分析不可以吗?并且计算简单。不可以。对于随机区组设计资料,尽管用两种方法分析的检验结论可能多数情况一致,但两因素方差分析可从总变异中分解出处理因素和区组因素导致的变异,单因素方差分析只从总变异中分解出一个因素所致的变异,因此与单因素方差分析的组内变异相比,两因素方差分析的误差变异减少了其他因素对随机误差的影响,更接近真正的“随机误差”,因此据此计算F统计量并推断更准确合理;另外,单因素方差分析检验效能较低。(60) 当经方差分析认为析因设计资料中某因素的主效应有统计学意义,而交互效应无统计学意义时,欲知哪个水平最好,应如何分析?如何选择最佳的实验组合?当该因素水平数超过2时,可以对该因素不同水平间的主效应作多重比较,比较的方法可参见《医学统计学》(余松林主编,人民卫生出版社,2002)第110页。选择最优实验组合时,当因素间交互效应差异无统计学意义,而各因素均有统计学意义时,则各因素最佳实验水平的组合即为最优实验组合;如果某因素无统计学意义,则从中选择经济、简便、无(低)痛苦、无(低)不良反应的实验水平。(61 )析因设计资料经方差分析后某两因素的交互效应有统计学意义,如何选择实验条件?可通过对各种实验组合的多重比较选择实验条件,比较的方法可参见《医学统计学))(余松林主编,人民卫生出版社,2002)第110页。当两种组合间比较差异有统计学意义时,选择实验效果更佳的实验条件;若差异无统计学意义,则选择经济、简便、无(低)痛苦、无(低)不良反应的实验组合。(62) 交互效应与交互作用有何不同?如何判断实验因素间有无医学上常说的拮抗作用和协同作用?交互效应是指在方差分析中描述交互作用项的参数,对于多因素的实验性研究中,研究因素的各个水平是有序的,代表了每种干预的强度,如果两个因素主效应均大于0,则其交互效应>0,说明两种干预的叠加效应大于两种单独干预的效应之和,故称为协同作用;反之,如果两个因素主效应均大于0,而其交互效应<0,说明两种干预的叠加效应小于两种单独干预的效应之和,故称为拮抗作用。(63)在重复测量设计的方差分析中,处理效应是什么?在同样的其他条件下,不同处理所对应的观察变量的总体均数差异,在例17-1中的处理效应是试验药与对照药治疗慢性乙型肝炎的ALT总体均数差异。(64)在重复测量设计的方差分析中,时间效应是什么?时间效应是指在同样的处理和其他条件下,观察变量的总体均数随着时间变化所对应的差异。在例17-1中的在同为试验药或对照药治疗慢性乙型肝炎的情况下,ALT总体均数随着时间变化所对应的差异。(65)在重复测量设计的方差分析中,处理效应与时间效应的交互作用是什么?如果不同处理所对应的总体均数之间的差异随着观察时间变化而变化,则称为处理效应与时间效应有交互作用;反之,如果随着观察时间的变化,不同处理所对应的总体均数之间的差异是个常数(即不随观察时间变化而变化),则称处理效应与时间效应无交互作用。在例17-1中,统计推断的结论为:两组所对应的ALT总体均数之差不随观察时间变化而变化,故该例的处理效应与时间效应无交互作用。(66)在重复测量设计的方差分析中,能否用治疗前后观察值的改变量作为评价指标?用治疗后观察值作为评价指标是描述受试者在治疗后的症状水平。治疗前后的观察值改变量作为评价指标是描述治疗后症状改变的程度。在许多情况下,两者均可以作为评价指标,并且治疗前后的改变量往往有时更能体现药物疗效功能,但当治疗后的受试者处于治愈或恢复到正常状况时,用治疗前后的观察值改变量作为评价指标就存在一些问题了。例如:评价感冒药的疗效,观察指标为感冒的各种症状总分,当感冒治愈时,各种症状总分为0,这时治疗前后的观察值改变量一治疗前的各种症状总分一0分=治疗前的各种症状总分,因此,治疗前后的观察值改变量作为评价指标就成为治疗前的症状总分评价,这时治疗前后的症状总分改变量不能反映疗效的问题了。在例17-1中,几乎所有的受试者在第36周的ALT测量值都属于正常范围,因此ALT观察值在正常范围内的波动属于个体变异,与药物的疗效关系不太大。因此,用治疗前后的ALT改变量作为评价指标就不能较好地反映临床治疗效果,如果两组的治疗前的观察值平均水平是无统计学意义的,则用各个时点的ALT观察值反映药物治疗能使受试者的ALT达到何种水平和范围就有较好的临床意义。(67)连续型定量变量如何引入回归模型?连续型定量变量若直接以定量变量形式引入方程,对于定量变量与logit π呈线性的情况下,可以减少信息损失,减少方程增设哑变量个数,增大检验效能,但当该变量与logit π没有近似线性关系时,反而导致参数估计误差加大,甚至结果无法解释。所以,对于这种情况,一般采用离散化的方法,以哑变量形式引入模型。离散化类别的个数一方面要依据专业知识,另一方面要根据样本量及拟纳入方程分析的自变量个数确定。(68) 如何建立好的回归模型?研究者通过统计软件,采用逐步前进法或后退法,逐个入选或剔除自变量,建立logistic回归模型。这种作法从统计学意义上无可厚非,但是统计回归模型的生命力在于解决实际问题,回归模型必须要“工作”。从应用角度看,完全依赖统计软件筛选自变量,建立回归模型的作法有片面性。要将专业经验与统计学原理、方法相结合,认真筛选进人方程的自变量,以建立好的统计回归模型。当采用统计学与专业知识结合的方法,筛选进人方程的自变量还不满意时,可以考虑对常用logistic回归方程进行必要的修改,如方程中增加变量的二次项或相关自变量的交互项等,使拟合方程更加符合客观实际。(69) 如何计算有交互效应时的优势比?以只有两个自变量的logistic方程为例。没有交互效应的模型(即主效应模型)为logit π=β0+β1X1+β2X2。如果考虑X1, ,X2。间存在一阶交互效应,模型表达式为logit π=β0+β1X1+β2X2+β3X1X2,当因素X1增加一个单位,即=X1+1,其他条件不变时的优势比为。一般要讨论不同的X2取值,检验β1+β3X2=0的问题。如X2= 0,则OR1=exp(β1),检验H0: β1=0;如X2 =1,则OR1=exp(β1+β3),检验H0: β1+β3=0。因此,有交互效应时X1的优势比不是一个常数,它还取决于另一因素的状况(自变量X2取值)。
可以说,没有涵芬楼的大量古籍,贾祖璋是很难写出《鸟与文学》这部名著的。贾祖璋自己也说,“经过1932年的‘一·二八’战乱,搜集的文献全部毁灭,工作环境与科学研究相距更远,既无丰富的科学知识,又少应用自如的参考资料”,要想再写《鸟与文学》那样的文章,“已经只是梦想了”。胸怀远大理想,始终与国家、民族和人民同呼吸、共命运,是他永葆创新品格的再一一个原因。早在1918年,17岁的贾祖璋就在《言志-文中写道:“我不欲生无益于世,死无闻于后的浑浑然虚此一生的心理,16岁起就抱定了。有这个心鞭策我,迫我总要择一种性近的学间来研究。我是很爱自然的,很喜欢动植物的,何不将这个性去发展呢?于是就择定生物学为我终身研究的学间。而诗则以陶治我性情,随时欣赏,可以免去治科学的干燥生活的弊病。”有了远大的理想,又有爱国家、爱人民的博大情怀,于是他的灵魂深处,始终有一种抹不去的对事业的使命感和责任感,不论何时何地,也不论顺境还是逆境,他从不敢怠慢,总是奋发努力,埋头苦干。特别是在晚年,在言谈之中,在文章的字里行间,随处可见这种只争朝夕的精神。贾祖璋创新精神应该发扬,贾祖璋创新精神的内涵更值得我们认真研究与思考!贾祖璋一生创作了大量科普作品,历经5次创新,形成3次创作高峰,具有独特鲜明的个性。因此,探讨他的创作动机和创作指导思想很有意义。贾祖璋是从学习和研究生物学开始写作的。1920年暑期,他离开浙江省立第一师范学校时,向学校图书馆借了一本日本辰谷辰三郎著的《显花植物分类学》,带回家中,翻译其中第二章,题名《植物分类系统沿革》-文,刊于上海《时事新报.学灯)栏。从事生物学写作,即从这本书开始。1924年考人上海商务印书馆仪器标本部后,接触了大量生物标本。从小喜爱生物、喜欢自然的贾祖璋,如鱼得水,对生物学,特别对鸟类学产生了推厚的兴趣,有空就翻阅关于中国鸟类学的文章。当时,东方国书馆里有祁天锅、赖吐税等外国学者写作的关于中国鸟类的著作贾祖璋翻译后又根据所见已标本进行考定,写了几篇《中国产马天报告》,在周建人主编的《自然界》上发表了。写作这批颇有学术水平的鸟类文章,写作的意图是要让人知道,我,我们常见的各种鸟类,在科学上究竟是一种什么样的动物,它的形态怎样,生活习性又如何,是留鸟还是候鸟,鸟。显然,这是为科研服务的。它的学名叫什么,它是害鸟还是益收集,而且从中国历史古籍文献中收集,后来,他收集了大量鸟类文献资料,不仅从外国学者著作中先后对20种鸟类进行了详尽细致的描述,结集成《鸟与文学》出版。贾祖璋认为:“在写《鸟与文学》的时候,虽然以趣味为重,但也还有点作系统研究的意思,认为在纯正科学的立场上,选择关于各种鸟类有价值的新旧记载作一系统整理,对于中国鸟类学的研究,或许也会有相当的用处。”当时,中国的生物学研究相当落后,许多鸟类新种都是外国人在中国发现并定名的。新种的模式标本采自中国,却被藏在外国的博物馆里。贾祖璋对此深感耻辱,有心为中国生物学科研贡献自己的力量。他跟弟弟贾祖珊合作编著《中国植物图鉴》一书就是这种思想的典型反映。《中国植物图鉴》收有植物2400多种,长达2000多页,是一种大型工具书,可供科研与生产实践之用。由于采取上图下文的排列,又写得通俗易懂,也可供初中文化以上者学习生物学之用,因此,也是一种科普工具书。由于编纂开始时,我国著名植物分类学家胡先啸先生的《中国植物图谱》尚未问世,编写无成例可资借鉴,完全是首创之举,对于种类的确定、图样的搜寻、学名的考订、中名的采择以及形态、生态和应用记载等等的筛选辨识,随时随处都会遇到疑难。不过,为中国人争口气,再大困难都吓不倒他们。为了保证书稿质量,初稿完成后,又多次进行修订。些重要植物的材料,都经过多方面的搜寻、对照和考订后才编人书中。虽然当时国内植物学的研究已经展开,但这一块学术荒原,实在过于广大了,尚未经人垦殖的区域到处都是,就是已经垦熟分丰富,愈勤,得不到满意发现的缺陷但也无法实在过于1的区域,的结果,未免是一种遗憾。”!全部收齐。反而愈多。有的成果果也尚未刊布。国外研究的新成果卡对此,他说:年5月出版后,深受欢迎,新贾祖璋深感用力愈坚,“虽然耗却无数心力,其实,《中国植物图鉴》费力仍然是一本根有价值的工具书,197重印。从《鸟与文学》到《中国植物图室》,中国成立后又再版他想为科研做贡献的思想脉相承。为抗战而创作抗日战争爆发之前,贾祖璋的创作活动基本是国绕着学习与就是推动生物学的学习与研研究生物学进行,指导思想很明确,究。因此,作品注重知识含量,显得相当厚重。《中国植物图室》赶在“七·七”事变前两个月由开明书店出版,这跟当时主持书店编务的夏丐尊、叶圣陶的鼎力相助有关。此书采取定稿批,排印一批的办法,从1935年6月至1937年5月,用了两年时间,终于完成。“八·一三”沪战爆发后,上海沦人敌手,开明书店大部分人员停薪留职疏散,贾祖璋亦然。
在微生物的科学世界中,我们经常会发现微生物的研究是比较复杂的,因为长时间在显微镜下去观察微生物,往往需要很长的时间,一般就会盯着好几个小时,这样不仅无法及时记录结果,还会错过一些关键细节的捕捉,所以在研究过程中,微生物的数据记录是非常关键的,尽管现在电脑科技非常的发达,但是对于团队型实验项目还是可以同步进行的,但是如果是微生物学的兴趣爱好者,往往是单独进行研究,就无法产生自己的数据记录了。所以我们对于微生物的研究不单单是停留在表面,更多要考虑合适的方法, 比如我们发现如果用扩大法去研究,这样会产生意想不到的效果,我们现在杀菌消毒用到巴氏消毒法,那么很早以前有一位科学家就叫做巴斯德,它在研究细菌的时候改变了很多因素,创造了很多奇迹,我们最典型的知道他用了一锅肉汤培养了细菌,我们肉眼可见的实验就在眼前发生了,后来我们用同样的方法在培养皿中制作了培养基,培养出五颜六色,形状绚丽的菌落,为我们方便计数和研究提供了很大的帮助。所以在研究微生物科学的过程中,不能单单依靠当代科技产品,也要学会用一定的方法去设计实验,通过多个角度去观察实验中微生物的变化,这样的实验才会变得有趣!
高通量测序技术的飞速发展,使得基因数据量直线飙升,随之而来的就是对基因功能研究的新挑战。做完测序我们得到感兴趣的基因或ncRNA,并对它们的功能、作用机制做生信方面的分析后,如果我们要深入研究下去,就需要依靠分子实验手段做筛选到的感兴趣基因或ncRNA的功能及作用机制方面的研究。基因或ncRNA研究组成模块本质上是差不多的,都是由生物学问题、分子(基因或ncRNA)、功能和机制、通路组成,而每个层面又有针对于不同情况的具体的实验技术,而文章的千变万化就在于这些模块之间、这些技术之间的不同组合。01表达量检测、定位、全长鉴定:缩小范围,找到重点 对于很多研究,第一步一般都会去验证从测序结果中筛选到的基因或ncRNA,主要验证要研究的基因或ncRNA的表达量(RT-qPCR、northern、WB)、表达在组织或亚细胞间的特异性(RT-qPCR、northern、FISH、GFP融合蛋白、核质分离)、序列的准确性及是否有新的可变剪切(5’/3’RACE)等。这一步可以缩小研究的范围,有时候也会发现新的兴趣点,比如这篇Journal of Experimental Botany的文章中,作者发现了slctr4基因的一个新的可变剪切命名为slctr4vs3,并且在slctr4的3个可变剪切中只有slctr4sv3与sly-mir-1917呈负相关(负相关是miRNA调控靶基因最常见的方式,说明这个miRNA很可能调控这个基因),在后期的Y2H实验和BiFC实验中发现slctr4sv3与SlEIN2互作,这样就打通了miRNA-1917-slctr4-SlEIN2这样一条通路。02基因功能研究 做完这部分基础的验证后,就需要验证基因或ncRNA的功能,功能的验证主要分两类:获得性研究和缺失性研究,获得性研究即通过VIGS或遗传转化/转基因让目的基因过表达,缺失性研究即用RNAi、CRISPR/Cas9等技术让目的基因沉默或突变为无功能基因。通过这部分研究可以验证目的基因的功能。比如这篇发表在Developmental Cell的章中对lncRNA COLDWRAP的RNAi敲除品系表现出减少的春化反应,将COLDWRAP转入COLDWRAP突变体后,COLDWRAP表达恢复了春化反应。03作用机制研究:文章容易出彩的地方目的基因或ncRNA研究完,进一步就需要探讨目的基因是如何发挥作用的,比如上述lncRNA COLDWRAP,是通过什么方式对春化作用产生影响的呢?这就需要研究COLDWRAP的作用机制,很多高分文章都是这部分的研究非常精彩!比如,下面这篇发表在Plant Cell上的文章,作用机制部分研究就比较精彩。作者先在体外,用酵母双杂交鉴定FRI蛋白互作的蛋白,发现FRI的N端区域与其与LRB1和LRB2的相互作用是重要的,FRI的C端区域和CUL3A的N端区域是它们相互作用所必需的。之后用GST pull-down验证酵母双杂交结果。之后在体内,用BiFC在体内验证定位、酵母双杂交、GST pull-down结果,用co-IP分析瞬时表达FRI和CUL3A再次验证相互作用。最后通过体外降解试验发现FRI通过泛素-26蛋白酶体途径降解,表明CUL3A和LRB1 / 2是FRI降解所必需的,FRI降解是CUL3A,LRB1 / 2和蛋白酶体依赖性过程介导。最终得出蛋白酶体介导的FRI降解调节拟南芥春化过程中开花的结论。04 把生物学故事串起来好的研究最终能依靠转录因子、信号通路等把研究结果串起来,系统地解释一个生物学问题。比如上面谈到的Plant Cell的文章,作者发现转录因子WRKY34的转录迅速被冷应激诱导,之后构建pCUL3A-LUC载体和W-box区域突变pCUL3A-LUC载体,与WRKY34共注射入烟草和拟南芥叶原生质体,来验证WRKY34以预测的W-box与CUL3A启动子结合以增加其CUL3A转录,而CUL3A又介导FRI降解调节拟南芥春化过程中的开花,从而把生物学故事由冷诱导—WRKY34转录—CUL3A转录—FRI降解—拟南芥春化过程中的开花这样一条线串起来。参考文献Wang Y, Zou W, Xiao Y, et al. MicroRNA1917 targets CTR4 splice variants to regulate ethylene responses in tomato.[J]. Journal of Experimental Botany, 2018.Kim D H, Sung S. Vernalization-Triggered Intragenic Chromatin Loop Formation by Long Noncoding RNAs[J]. Developmental Cell, 2017, 40(3).Hu X, Kong X, Wang C, et al. Proteasome-mediated degradation of FRIGIDA molates flowering time in Arabidopsis ring vernalization[J]. Plant Cell, 2014, 26(12):4763-81.
摘要:合成生物学是一门以工程学思想为指导,对天然生物系统进行重新设计与改造,并设计与构建新的标准化的生物元件、组件与系统的新兴学科。它是生物化学、分子与细胞生物学、系统生物学等与工程学、数学、计算机科学等相融合的交叉学科,并在医药、能源、环境等领域取得了令人瞩目的成果。介绍合成生物学的定义、相关概念、学科特点与现阶段研究内容,并综述最新研究进展,如基因调控开关、基因计数器、生物逻辑门元件、生物计算、人造生物图案、可擦写数据寄存器、电生物反应器“合成”生物燃料等开创性的研究成果,并展望合成生物学的巨大发展前景。关键词:合成生物学;生物积块;基因线路;逻辑门;电生物反应器2010年J. Craig Venter团队创造了人类历史上第一个人造细胞Synthia(Gibson et al. 2010),在科学界引起了巨大反响,从而使“合成生物学”(synthetic biology)进入了大众的视野。合成生物学是近年兴起的,综合了分子与细胞生物学、生物化学、生物信息学、系统生物学等,并与工程学、数学、计算机科学等交叉的一门新兴学科,是基因工程和代谢工程的“升级”版本,具有巨大的发展潜力,并已在生物医药、生物能源、环境治理、生物计算及相关基础研究领域取得了令人瞩目的成果。2004年美国MIT出版的《技术评论》一书把合成生物学选为将改变世界的十大技术之一。2010 年,《自然》杂志盘点当年12件重大科学事件,合成生物学排在第4位;在当年12月《科学》杂志评出的十大科学突破中,合成生物学排在第2位。1. 合成生物学的研究内容合成生物学是以工程学思想为指导,对天然生物系统进行重新设计与改造,同时设计并合成新的生物元件(element)、组件(device)和系统(system)的崭新学科。目前研究应用包括两个主要方面:一是“自上而下”的方法,通过对现有的、天然存在的生物系统进行重新设计和改造,修改已存在的生物系统,使之增添新的功能;二是“自下而上”的方法,通过设计和构建新的生物元件、组件和系统,创造自然界中尚不存在的人工生命系统。由于合成生物学多学科交叉及多领域应用的特性,目前没有一个公认的标准定义,我们采用“合成生物学组织”网站(http:// syntheticbiology.org)的一段描述。合成生物学包括两条路线:①新的生物元件、组件和系统的设计与建造;②对现有的、天然的生物系统的重新设计。1.1 合成生物学目前的具体研究内容(1)底盘生物(chassis)及其基因组的合成、简化与重构,以作为各类生物元件、组件及系统的运行平台,如T7噬菌体基因组的重构(Chan et al., 2005)、克雷格文特尔人造细胞Synthia(JCVI1.0)的构建等。(2)生物大分子(如核酸和蛋白质)的合成、改造与模块化,如DNA合成技术的发展(Kosuri et al., 2010;Matzas et al., 2010);人工创造遗传物质,如类DNA化合物(XNA)的合成(Pinheiro et al., 2012);非天然氨基酸的合成(Noren et al., 1990;Wang and Schultz 2002;Chin et al., 2003;Mehl et al., 2003;Wang et al., 2003)及相应新密码子、tRNA的构建(Hohsaka et al., 2001;Hohsaka et al., 2001),基于蛋白质工程的酶功能的优化、改造等。(3)合成及优化代谢网络,如青蒿酸(Martin et al., 2003;Ro et al., 2006;Hale et al., 2007;Tsuruta et al., 2009)、紫杉醇(Ajikumar et al., 2010)及高级醇(Atsumi et al., 2008)的生物合成基因簇的优化及异源表达。(4)各类生物功能元件的标准化,以及基于标准化生物元件的基因线路的设计与多领域应用。1.2 合成生物学的基本概念1.2.1 生物积块生物积块(biobricks)是指将天然存在的基本DNA功能片段,如启动子(promoter)、核糖体结合位点(ribosome binding site, PBS)、功能基因、终止子(terminator)等进行优化,确定动力学模拟参数及载体、宿主背景,在各元件头尾两端加上特定的酶切位点,并采用统一的描述与分类方法使之标准化,从而更有效率的进行查询、设计与基因操作。国际遗传机器大赛(international genetically engineered machine competition, iGEM)的主办单位美国麻省理工学院(MIT)“合成生物学联合会”(synthetic biology community)建立了生物积块文库,目前正在迅速发展壮大中。1.2.2 基因线路基因线路(gene circuit)借鉴电磁学中描述电器件关系的线路(circuit)概念,将标准化的生物元件(如生物积块)进行重新设计与构建,构成具有预期的全新功能的生物组件与系统,并进行数学模拟和系统性能分析(如稳定性、鲁棒性、敏感性等)。目前的研究内容包括基因调控开关(genetic switch)、振荡器(oscillator)、同步时钟(synchronized bacterial clock)、计数器(counter)、逻辑门元件(logic gates)、生物计算与存储等。2. 合成生物学最新研究进展2.1 基因调控开关基因调控开关研究对基因转录及表达的控制,是合成生物学基本手段之一,因此研究开展的也较早。James J. Collins课题组的Isaacs等(2004)构建了转录水平的RNA开关。该开关是一段25bp 的核苷酸序列,位于启动子和核糖体结合位点之间,转录后该段crRNA(cis-repressed RNA)自发折叠,导致下游功能基因不能翻译表达;通过诱导表达另一段与该crRNA 序列互补并结合能力更强的taRNA(trans-activating RNA)后,打开crRNA的折叠,使下游基因顺利表达。Blount等(2012)利用最近发展的dTALE(designer transcriptional activator-like effector)技术(Kay et al., 2007;Romer et al., 2007;Boch et al., 2009;Moscou and Bogdanove 2009;Bogdanove and Voytas, 2011),在酿酒酵母(Saccharomyces cerevisiae)中通过诱导表达具有精确位点特异性,并且其结合位点可以任意“定制”的DNA结合蛋白来结合启动子核心区域,从而阻遏特定基因的转录,实现DNA生物元件中反相器(inverter)的功能(Blount et al., 2012)。dTALE技术利用来自一种黄单孢菌属(Xanthomonas)植物病原菌的转录激活因子蛋白(transcriptional activator),其DNA结合域的结构与DNA结合位点的碱基有一一对应的关系,因此可以通过调整该DNA结合域的氨基酸序列来“定制”其DNA结合位点。利用该技术,可以对不同基因的启动子区域合成对应的dTALE,因此可以提供可重复的并行的“阻遏信号”,相对于之前数量有限且不能任意扩展的各种阻遏调控机制,这种TALOR(transcription activator-like orthogonal repressors)为基因线路的复杂化提供了有力工具。Egbert等(2012)发现,通过在Shine-Dalgarno 序列和翻译起始位点(translation initiation site)之间插入若干重复的碱基组合(ribosome binding simple sequence repeat, rbSSR)如AT、AC、A、T等,可以使下游基因的转录水平发生可预测性的下降。2.2 基因计数器能够在细胞中运行的工程化的基因计数器是为细胞“编程”及在细胞中构建复杂人工网络的基础功能模块之一。James J. Collins 课题组的Friedland等(2009)构建了两种基因计数器,第一种基于RNA开关调控的转录级联反应,可以对同一诱导物的添加次数进行3次计数,并且可以通过增加转录组件来进行扩展。第二种基于DNA重组酶的存储器级联反应,也可以对同一诱导物的添加次数进行3次计数,改进后还可以对每次加入不同的诱导物的情况计数,同样可以通过增加新的DNA重组系统来进行扩展。第二种计数器还具有“记忆”功能,即每次计数对应不同的DNA翻转变化,不仅可以通过输出信号来读取最终计数,还可以通过检测计数器中DNA序列的状态来读取即时计数。2.3 逻辑门元件逻辑门是数字电路的基本运算单元,也是计算机科学及自动化编程的基础。在细胞中模拟各种逻辑门元件的功能,并将其有序连接以进行复杂的逻辑运算与输出,是通过数字化编程在细胞中构建复杂人工代谢网络的基本研究内容。Win和Smolke(2008)开发了一个基于RNA的逻辑门元件,这些RNA元件可以与输入信号(效应物分子)发生反应产生结构变化,从而激活或阻遏下游报告基因的翻译表达。通过组合不同的RNA元件,可以行使各种逻辑门(与门、与非门、或门、或非门)和信号过滤器的功能。2010年,该研究组进一步构建了一种可以将细胞内特定蛋白质浓度作为输入信号的RNA逻辑门元件(Culler et al., 2010)。将预先编程的RNA逻辑门元件植入细胞内,并感应特定蛋白质信号分子的浓度变化,使细胞可以根据蛋白质信号分子的浓度,来自动调节目标基因的表达。上述结果表明,可以通过特定的逻辑门元件,对细胞中天然的调控网络进行重新编程,从而控制细胞行为或赋予细胞新的行为,这对细胞天然代谢网络的改造具有极大的应用价值。2.4 生物计算如果将携带有逻辑运算元件的单个细胞视为一个运算单元,那么通过数以亿计的细胞之间的相互作用,便可以产生强大的计算能力,这就是生物计算的潜力和价值所在。2011年1月,Nature杂志同期发表了两篇论文,分别介绍利用不同微生物进行复杂的逻辑运算。Tamsir等(2011)利用基于群体感应(quorum sensing)调控的基因线路,首先在大肠杆菌(E. coli)中构建了6种简单的或非(NOR)逻辑门,即由两个串联的启动子来控制一个抑制基因的表达,抑制基因控制着输出信号(报告基因)的表达;另外构建了2种单输入的反相器和缓冲器(buffer)。将含有这8种逻辑门的E. coli菌株的菌斑在培养平板上以不同的方式排列组合,菌斑之间通过群体感应效应物分子的扩散进行通信,可以构建出所有16种双输入布尔逻辑门,包括最复杂的(异或)XOR门和EQUAL门(Tamsir et al., 2011)。Regot等(2011)采用分布式计算方法,分别构建了4种基本逻辑运算的基因线路,并转入酿酒酵母(Saccharomyces cerevisiae)细胞中,作为单位逻辑运算细胞。初始信号为外部添加的效应物,细胞间通信信号为由初始信号产生的可扩散至其他细胞的分子,报告基因的表达水平作为最终输出信号。然后采用不同的组合方式,将各类细胞混合培养,并检测输出信号,可实现多路选择器(multiplexer)和进位加法器(carry adder)等逻辑运算功能(Regot et al., 2011)。2.5 人造生物图案Chenli等(2011)构建了一个可以调控大肠杆菌宏观生长图案的基因线路(Regot et al., 2011)。该线路通过诱导型启动子及群体感应效应控制大肠杆菌cheZ 鞭毛基因的表达,可以形成空间上有序排布的周期性条纹状图纹。通过数学模拟分析图案形成的原理,还可以调控条纹数量的变化。这对理解自然界中各种生物图案的形成原理,以及分化发育中细胞在时间、空间的有序排列和调控提供了崭新的思维,也显示了合成生物学在基础研究领域的强大潜力。2.6 可擦写数据寄存器与逻辑门元件、同步时钟、计数器等一样,数据寄存器也是为细胞编程的基础元件之一。Bonnet等(2012)构建了一个可擦写的重组酶可寻址数据(recombinase addressable data, RAD)模块。该数据寄存器利用来自噬菌体的DNA重组酶和切除酶系统,以外源诱导效应物作为输入信号,通过分别诱导表达整合酶、表达整合酶加切除酶、降解整合酶、降解整合酶加切除酶4 种方式,来翻转及回复一段含有组成型启动子的特定DNA序列,从而选择性的开启该DNA序列两端的不同报告基因(输出信号)的表达,达到存储和擦写的目的。该存储器可在基因组DNA中稳定存储并可反复擦写达100个细胞分裂周期以上。2.7 合成生物学应用举例:电生物反应器将CO2转变为生物燃料随着石油资源面临枯竭,生物能源的研究越来越受到重视。短短数年,生物燃料的发展便从第一代的玉米、甘蔗乙醇,第二代的秸秆纤维素乙醇发展到了第三代的微藻产油。但目前生物燃料除成本居高不下之外,还存在一个基本问题,即光合作用的能量转化效率不够高。曾因研究光合作用机制而获得诺贝尔化学奖的Hartmut Michel撰文称,光合作用出现兼有进化上的“合适”性和历史偶然性,其光能转化效率并不高,最终仅能转化光能的4%,低于目前研究的光伏发电(photovoltaic)的光能转化效率(太阳能电池转化效率15%与电池利用效率80%)(Michel, 2012)。James C. Liao课题组的Li等通过改造真氧产碱杆菌H16(Ralstonia eutropha H16)的代谢网络,使该菌可以CO2为唯一碳源和电能为唯一的能量输入来生产高级醇及其他高分子化合物(Atsumi et al., 2008;Atsumi et al., 2010;Li et al., 2012)。将该菌的培养溶液通电,可使通入的CO2 变为甲酸,通过改造真氧产碱杆菌的氨基酸及聚羟基脂肪酸酯(PHA)合成途径,该菌可以利用甲酸合成异丁醇和3-甲基-1-丁醇。异丁醇是理想的石油替代燃料并可直接用于汽车发动引擎。该系统还可以通过改造代谢网络合成其他化合物,如生物塑料、生物药制品等。将光伏发电与该技术相偶联,前者相当于光合作用的光反应,后者相当于暗反应,可以组成比光合作用效率更高、更易控制的光能利用系统。该系统也可以作为能量存储转换系统,将来源于风力发电、水利发电、核电等的电能转变为化学能储存,应用潜力巨大。3. 展望合成生物学是一门迅速成长的新兴交叉学科,自2000年左右开始,相关的研究论文数量逐年上升。随着相关技术的进步(如DNA合成测序技术的发展),合成生物学的许多基础研究工作(如底盘生物的基因组简化与重构)、标准化生物元件库的扩充、基因线路设计的创新等,都会在近几年得到飞速发展。在应用方面,随着青蒿酸、紫杉醇的生物合成,微藻产油及高级醇合成基因簇的改造,砷离子生物传感器的应用,合成生物学已经在生物医药、生物能源、环境治理等领域展现了巨大的潜力,并且在生物计算、微生物成像等许多方面展现了极具创意的应用,对其他学科的发展有着不可忽视的影响。21世纪是生物学的世纪,而合成生物学将是未来生物学发展的重要分支,必将对人类生活产生重大影响。
生物学家研究了20年,仍没找到它的种植方法,现在不吃以后就没了中国饮食文化博大精深,在五千年的历史长河之中给我们留下宝贵的财产。一道简简单单的食材往往会有几十种上百种吃法,我们国家地大物博,每个地区都有相对应的食用方式。今天咱们的主人公是一道菌类食材,生物学家研究了20年,依然无法人工养殖。作为一名地道的老吃货,我对于食材也是深有研究,每一道菜肴都是由一种甚至多种的食材想搭配而成的。每一种食材都有专属的烹饪方式。我们现在吃的蔬菜和果实,都是以前经过我们人类从野生训话成养殖的。今天给大家要分享的这种食材,是一种野生的菌类食材,这种食材的与“鸡”有关。今天咱们要说的主人公就是“鸡枞”,很多人对于这种食材应该不熟悉吧,这是一种野生食材,在我国,大部分都生长在云南,两广地区也有少部分。鸡枞的味道非常鲜美,用这种菌类炖汤,就算锅中没有小鸡,喝起来的味道也有炖鸡汤的味道,所以人们为其取名“鸡枞”。鸡枞的味道鲜美,是不可多见的野生食材。每一道食材都是来自于上天的馈赠,鸡枞也是其中之一。鸡枞的生长区域很“渗人”,一般只有荒凉地区才会产出这种食材,每一个有鸡枞的地方都会存在着白蚁,经常长在山间树林之中,还有的就是生长坟地,苞谷地等等。有的地区还将鸡枞取名为“三八菇”,因为其独特的生长习性。如果你发现一个鸡枞,走不远就能见到第二个,第三个。有的地区还叫它鸡丝菇,它吃起来的时候需要撕成一小丝一小丝的。对于这种食材只有在饭店里面吃到,市面上很少出现这种食材,你在餐馆的时候遇上过鸡枞吗?
从向组织输送氧气的静脉血管,到向茎和叶输送水分的木质部,维管网络是自然界中生命的重要组成部分。值得注意的是,植物的叶脉是“个性化”的结构,因为任何一张叶子的叶脉网络都是独一无二的;然而,动物的血管结构却是“保守”的,相似的,比如人的动脉和静脉网络结构都相似的。这两个观察结果让科学家们认为,网络结构是从一个共同的设计进化而来的,但是,究竟大自然中的生物是如何从一个单一的起点创造出这么多复杂的结构呢?一项新的研究表明,只要改变一个网络的少量属性,就可以创建多种多样的血管网络。这项研究由前宾夕法尼亚博士后Henrik Ronellenfitsch和Eleni Katifori教授这两位物理学家发表在《物理评论快报》上,他们的研究认为,生物的维管网络是通过在网络传输流体的能力、网络的“成本”或构建网络所需的细胞数量以及网络的健壮性之间进行权衡而发展起来的。简单来说就是,生物在发展维管网络的是权衡了网络的成本、健壮性以及高效运输的能力。这项研究建立在Katifori和Ronellenfitsch之前关于“适应方程”的工作的基础上,适应方程是擅长于特定功能的系统的数学模型,例如运动流体。在这项研究中,他们想看看他们的适应方程是否能使血管网络“自组织”成最有效的结构。为了验证他们的想法,研究人员将他们的适应方程应用于大量的模拟血管网络,以观察哪些属性组合可以被改变以创建新的结构。然后,Ronellenfitsch将得到的网络应用到一个数学工具中,比较不同网络设计的效率。当研究人员想要分析不同权衡的成本和收益时,他们依赖一个被称为帕累托效率(Pareto efficiency)的概念。举个例子,在有限的预算下,用新的隔热材料装修一栋房子,一个人要么花很多钱,拥有一栋隔热性能良好的房子,要么花更少的钱,但是要费力气去改善隔热性能。最有效的选择集,在低到高成本的范围内,从少数到许多翻新的例子中,被称为帕累托前沿。通过这种方法,Ronellenfitsch能够看到哪些属性对于创建有效的血管网络最重要。”我们所确定的网络是那些你不能在不让其他需求恶化的情况下改善任何需求的网络。研究人员发现,血管网络的效率取决于网络对损伤的鲁棒性(健壮性)和建造成本。通过对这两个属性的一系列变化,研究人员可以创造出各种各样的结构,从复杂的交织网络,能够抵御损害,到更简单的设计,无法经得起破坏。但是,大自然如何知道怎样平衡成本和稳健性呢?通过模拟波动或流经网络部分的平均流体量的变化,他们发现流量的变化会影响网络是否应该健壮。”如果你想要便宜但不结实的东西,你最好不要有太多的波动,”Katifori说。在不久的将来,Katifori的实验室将把他们的模型与植物中的网络的数据进行比较。”粗略的观察似乎证实了模拟中的网络类型或多或少存在于真实世界中,但我们没有明确地量化。很难以一种可控的方式对它们进行定量研究,因为如果你试图破坏波动,你就会破坏很多其他东西,”她说。除了它在生物学和进化论中的意义外,这一理论还可以证明在设计诸如电网这样的工程网络时是有用的。”Ronellenfitsch说:“你希望电网遵循类似的原则;你希望电网价格便宜,但也能抵御停电,在输送电力方面也很有效率。”这也是另一个例子,说明了效率和资源配置的理念如何与进化论和生物学联系在一起。”“不管是哪种生物,生物学都可能要解决同样的问题,”Katifori说,“而这个问题是建立一个擅长某些特定事物的网络。确切地说,生物学如何实现这一规则超出了我们的权限,但我们认为,生物学已经找到了一种普遍的方法,通过不同的方式来解决同样的问题。”
动物和人类之间存在物种差异,虽然我们可以和谐相处,但仍然无法做到心意相通,毕竟语言的隔阂不是那么容易克服的。生物学家正在研究一种「宠物翻译器」,未来我们也许可以和动物进行沟通。这种技能经常出现在虚构的故事中,比如哈利波特就掌握了蛇的语言。在现实生活中,长期相处的人和动物之间也能做到基本的沟通,因为有的动物会通过固定的叫声、表情、行为来进行表达,如果可以正确解读这些信息,就能破解动物的语言。生物学家 Slobodchikoff 花了 30 多年来研究土拨鼠,他发现这种动物有着复杂的声音交流方式,基本可以算作是一种语言。周围有敌人时它会发出尖锐的叫声,提醒同伴注意,叫声还会根据敌人的不同而改变。它们用不同的叫声组合来传达复杂的信息,甚至还可以标识人类衣服的颜色。在同事的帮助下,Slobodchikoff 开发了一种算法,可以将这些声音转为英语。去年 Slobodchikoff 创办了一家名为 Zoolingua 的公司,目标是开发一种更强大的翻译工具,他认为对土拨鼠叫声的研究同样可以用到猫狗身上。Slobodchikoff 正在收集大量的狗狗视频,然后用这些素材来训练人工智能算法,用人工来标记每一种叫声和摇尾巴的动作都是表达什么意思,最终的目的是制造一种翻译器,可以将狗的叫声转化为英文单词,比如「我饿了」、「我想出去散步」。Slobodchikoff 希望这种解读尽可能准确,未来会依据科学研究来进行「翻译」,而不是单纯的猜测。和动物沟通不光可以促进和宠物之间的感情,还方便牧场的管理。剑桥大学的教授就开发了一种表情识别系统,通过面部识别来判断绵羊的疼痛程度,如果将这项技术应用到牧场,用摄像头来监控羊群,就可以及时发现绵羊的生病情况。识别表情、动作、叫声并不难,现在的 AI 算法可以快速对这些信息进行识别并分类,但更难的是正确解读这些信息表达的含义。头图来源:视觉中国编辑:双筒猎枪