念
统计学是数学的一门,用来搜集、分析、演绎以及呈现数据。它被广泛的应用在各门学科之上,从自然科学和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。譬如自一组数据中,可以摘要并且描述这份数据的集中和离散情形,这个用法称作为描述统计学。另外,观察者以数据的形态,建立出一个用以解释其随机性和不确定性的数学模型,以之来推论研究中的步骤及母体,这种用法被称做推论统计学。这两种用法都可以被称作为应用统计学。另外也有一个叫做数理统计学的学科专门用来讨论这门科目背后的理论基础。 [编辑] 统计学的历史统计学的英文statistics最早是源于现代拉丁文statisticum collegium (国会)以及义大利文 statista (国民或政治家)。 德文Statistik,最早是由Gottfried Achenwall(1749)所使用,代表对国家的资料进行分析的学问,也就是“研究国家的科学”。在十九世纪统计学在广泛的数据以及资料中探究其意义,并且由John Sinclair引进到英语世界。因此,统计学的初衷是作为政府(通常是中央政府)以及管理阶层的工具。它大量透过国家以及国际统计服务蒐集国家以及本土的资料。另外依照各方面,普查则提供关母体的资讯。统计背后牵涉到数学导向的领域,如机率,或是从经验科学(特别在天文学)中获得的经验证据设定估计参数。在今日的世界里统计已经被使用在不仅仅是国家或政府的事务,更延伸到商业,自然以及社会科学,医疗等甚至方面。因为统计学拥有深厚的历史以及广泛的应用性,统计学通常不只被认为是数学所处理的对象,而是与数学本身的哲学定义与意义有密切的关联。许多知名的大学拥有独立的数理统计学系。统计学也在如心理学,教育以及公共卫生学系中被视为是一门主科。[编辑] 统计学的观念 费舍尔鸠尾花数据集之中杂色鸠尾花萼片宽度数据的分布直方图为了将统计学应用到科学、工业以及社会问题上,我们由研究母群体开始。这可能是一个国家的人民,石头中的水晶,或者是某家特定工厂所生产的商品。一个母群体甚至可能由许多次同样的观察程序所组成;由这种资料蒐集所组成的母群体我们称它叫时间序列。为了实际的理由,我们选择研究母群体的子集代替研究母群体的每一笔资料,这个子集称做样本。以某种经验设计实验所蒐集的样本叫做资料。资料是统计分析的对象,并且被用做两种相关的用途:描述和推论。描述统计学处理有关叙述的问题:是否可以摘要的说明资料的情形,不论是以数学或是图片表现,以用来代表母群体的性质?基础的数学描述包括了平均数和标准差等。图像的摘要则包含了许多种的表和图。主要是就说明资料的集中和离散情形。推论统计学被用来将资料中的数据模型化,计算它的机率并且做出对于母群体的推论。这个推论可能以对/错问题的答案所呈现(假设检定),对于数字特征量的估计(估计),对于未来观察的预测,关联性的预测(相关性),或是将关系模型化(回归)。其他的模型化技术包括变异数分析(ANOVA),时间序列(time series analysis),以及数据挖掘(data mining)。相关的观念特别值得被拿出来讨论。对于资料集合的统计分析可能显示两个变数(母群体中的两种性质)倾向于一起变动,好像它们是相连的一样。举例来说,对于人收入和死亡年龄的研究期刊可能会发现穷人比起富人平均来说倾向拥有较短的生命。这两个变数被称做相关的。但是实际上,我们不能直接推论这两个变数中有因果关系;参见相关性推论因果关系(逻辑谬误)。如果样本足以代表母群体的,那么由样本所做的推论和结论可以被引申到整个母群体之上。最大的问题在于决定样本是否足以代表整个母群体。统计学提供了许多方法来估计和修正样本和蒐集资料过程中的随机性(误差),如同上面所提到的透过经验所设计的实验。参见实验设计。要了解随机性或是机率必须具备基本的数学观念。数理统计(通常又叫做统计理论)是应用数学的分支,它使用机率论来分析并且验证统计的理论基础。任何统计方法是有效的只有当这个系统或是所讨论的母群体满足方法论的基本假设。误用统计学可能会导致描述面或是推论面严重的错误,这个错误可能会影响社会政策,医疗实践以及桥梁或是核能发电计划结构的可靠性。即使统计学被正确的应用,结果对于不是专家的人来说可能会难以陈述。举例来说,统计资料中显著的改变可能是由样本的随机变量所导致,但是这个显著性可能与大众的直觉相悖。人们需要一些统计的技巧(或怀疑)以面对每天日常生活中透过引用统计数据所获得的资讯。[编辑] 统计方法[编辑] 测量的尺度根据Stevens(1951)对数字的尺度分类,统计学一共有四种测量的尺度或是四种测量的方式。这四种测量(名目,顺序,等距,等比)在统计过程中具有不等的实用性 。等比尺度(Ratio measurements)拥有零值及资料间的距离是相等被定义的,等距尺度(Interval measurements)资料间的距离是相等被定义的但是它的零值并非绝对的无而是自行定义的(如智力或温度的测量)。( Ordinal measurements)顺序尺度的意义并非表现在其值而是在其顺序之上。名目尺度(Nominal measurements)的测量值则不具量的意义。[编辑] 统计技术以下列出一些有名的统计检定方法以及可供验证实验数据的程序变异数分析(ANOVA) 费雪最小显著差异法(Fisher's Least Significant Difference test ) 学生t检验(Student's t-test) 曼-惠特尼 U 检定(Mann-Whitney U) 回归分析(regression analysis) 相关性(correlation) 皮尔森积矩相关系数(Pearson proct-moment correlation coefficient) 史匹曼等级相关系数(Spearman's rank correlation coefficient ) 卡方分配(chi-square ) [编辑] 延伸学科有些科学广泛的应用统计的方法使得他们拥有各自的统计术语,这些学科包括:农业科学 生物统计 商务统计 资料采矿(应用统计学以及图形从资料中获取知识) 经济统计学 电机统计 统计物理学 人口统计 心理统计学 教育统计学 社会统计(包括所有的社会科学) 文献统计分析 化学与程序分析(所有有关化学的资料分析与化工科学) 运动统计学,特别是棒球以及曲棍球 统计对于商业以及工业是一个基本的关键。他被用来了解与测量系统变异性,程序控制,对资料作出结论,并且完成资料取向的决策。在这些领域统计扮演了一个重要的角色。