老两口
卡尔·皮尔逊在统计领域的贡献 在19世纪90年代以前,统计理论和方法的发展是很不完善的,统计资料的搜集、整理和分析都受到很多限制。皮尔逊在生物学家高尔登 (Francis Galton,1822-1911)和韦尔顿(Weldon,1860-1906)的影响下,从九十年代初开始进军生物统计学。他认为生物现象缺乏定量研究是不行的,决心要使进化论在一般定性叙述的基础之上,进一步进行数量描述和定量分析。他不断运用统计方法对生物学、遗传学、优生学做出新的贡献。同时,他在先辈们善于赌博机遇的概率论研究的基础上,导入了许多新的概念,把生物统计方法提炼成为一般处理统计资料的通用方法,发展了统计方法论,把概率论与统计学两者溶为一炉。他被公认是“旧派理学派和描述统计学派的代表人物”,并被誉为“现代统计科学的创立者”。他在统计学方面的主要贡献是: 1.导出一般化的次数曲线体系。在皮尔逊之前,人们普遍认为,几乎所有社会现象都是接近于正态分布的。如果所得到的统计资料呈非正态分布则往往怀疑统计资料得不够或有偏差;而不重视非正态分布的研究,甚至对个别提出非正态分布理论的人加以压抑。皮尔逊认为,正态分布只是一种分布形态,他在高尔登优生学统计方法的启示下,在1894年发表了《关于不对称曲线的剖析》,1895年发表了《同类资料的偏斜变异》等论文,得到包括正态分布、矩形分布、J型分布、U型分布等13种曲线及其方程式。他的这一成果,打破了以往次数分布曲线的“唯正态”观念,推进了次数分布曲线理论的发展和应用,为大样本理论奠定了基础。 2.提出卡方(χ2)检验。皮尔逊认为,不管理论分布造反得如何好,它与实际分布之间总存在着或多或少的差异。这些差异是由于观察次数不充分、随机误差太大引进的呢?还是由于所选配的理论分布本身就与实际分布有实质性差异?还需要用一种方法来检验。1900年,皮尔逊发表了一个著名的统计量,称之为卡方(χ2),用来检验实际值的分布数列与理论数列是否在合理范围内相符合,即用以测定观察值与期望值之间的差异显著性。“卡方检验法” 提出后得到了广泛的应用,在现代统计理论中占有重要地位。 3.发展了相关和回归理论。皮尔逊推广了高尔登的相关结论和方法,推导出人们称之为 “皮尔逊积动差”的公式和两个其它相当的分工,给出了简单的计算:说明对三个变量的一般相关理论,并且赋予多重回归方程系数以零阶相关系数的名称。他意识到只有通过回归才能回答韦尔顿提出的关于出现相关器官的选择问题,意识到要测定复回归系数值,广泛搜集所有变量的基本平均数、标准差和相关的数据。他提出了净相关、复相关、总相关、相关比等概念,发明了计算复相关和净相关的方法及相关系数的公式。 4.重视个体变异性的数量表现和变异数据的处理。皮尔逊认为,在各个个体之间真正变异性的概念,与在估算一个单值方面的误差之间的机遇变异有着很大的差别。对这个观念的强调,是他对生命了解的真正贡献之一。他在1894年那篇关于不对称次数曲线的论文中,提出了“标准差”及其符号 σ。 5.推导出统计学上的概差。皮尔逊推导出他称之为“频率常数”的概差,并编制了各种概差计算表。这是他自己认为的最重要贡献之一。这些概差对于先前缺乏度量的大多数统计资料的抽样变异性,标志着很大的进展。 皮尔逊还发明了一种用于二项分布的器械装置。他对算术平均数、众数、中位数之间的关系进行了深入的研究。他发现,在完全对称分布的资料中,算术平均数、众数和中位数三者是重合在一起的,而当资料的分布不对称时,则算术平均数、众数和中位数三点是分开的。如果这种不对称的程度不严重,则三点可构成一固定关系。他还提出其它一些重要统计理论和方法,如统计假设所预计的结果、随机移动、组间相关、四分相关以及力矩方法的应用等。 1914年第一次世界大战开始后,皮尔逊的研究转向用统计来处理和完成大量与战争有关的特殊计算工作,为反法西斯战争服务。在这期间,他编辑发行了一些计算用表,以便利统计人员。战争结束后,他又立即回到各种统计理论方面的研究。1921年到1933年,他在伦敦大学学院应用统计系讲授17、18世纪统计学史。1936年4月27日在英格兰萨里郡的科尔德哈伯去世。 皮尔逊的这些成就和贡献,受到了统计学家们的推崇,使整个一代的西方的统计学家在他的影响下成长起来。皮尔逊于1896年被选为皇家学会会员,他还被选为“高尔登优生学教授”,是爱丁堡皇家学会的名誉会员、巴黎人类学会和前苏联人类学会的会员。