本文为PMCAFF专栏作者大山里人出品前言道德经云:”道生一,一生二,二生三,三生万物“。学习知识亦是如此,一个概念衍生出两个概念,两个概念演化出更小的子概念,接着衍生出整个知识体系。笔者结合自己对统计学和概率论知识的理解写了这篇文章,有以下几个目标目标一:构建出可以让人理解的知识架构,让读者对这个知识体系一览无余目标二:尽l量阐述每个知识在数据分析工作中的使用场景及边界条件目标三:为读者搭建从“理论”到“实践"的桥梁注意:本文不涉及对概念及方法公式的推导,读者有兴趣可以自行查阅《概率与统计》概述你的“对象” 是谁?此对象非彼“对象”,我们学习“概率和统计学”目的在于应用到对于“对象”的研究中,笔者将我们要研究的“对象”按照维度分为了两大类。一维:就是当前摆在我们面前的“一组”,“一批”,哪怕是“一坨”数据。这里我们会用到统计学的知识去研究这类对象。二维:就是研究某个“事件”,笔者认为事件是依托于“时间轴”存在的,过去是否发生,现在是可能会出现几种情况,每种情况未来发生的可能性有多大?这类问题是属于概率论的范畴。因此,我们在做数据分析的研究前,先弄清我们研究的对象属于哪类范畴,然后在按着这个分支检索自己该用到的知识或方法来解决问题。分析就像在给 “爱人” 画肖像从外观的角度描述一个姑娘,一般是面容怎么样?身段怎么样?两个维度去描述。就像画一幅肖像画,我们的研究“对象”在描述性分析中也是通过两个维度去来描述即,“集中趋势---代表值”,“分散和程度”。看到这几个概念是不是就很熟悉了?笔者认为一个描述性的分析就是从这两个维度来说清楚你要研究的对象是什么样子?至于从哪些特征开始说呢?就是常用的概念“均值”,“方差”之类的。下面我们进入正题,笔者将详细阐述整个知识架构。第一部分对“数据”的描述性分析数据分析中最常规的情况,比如你手上有一组,一批或者一坨数据,数据分析的过程就是通过“描述”从这些数据中获取的信息,通常可以从两个维度去描述:1集中趋势量度:为这批数据找到它们的“代表”均值(μ)均值的局限性均值是最常用的平均数之一,但是它的局限性在于“若用均值描述的数据中存在异常值的情况,会产生偏差” ;例如下面一组数据就不太适合用均值来代表这5个人的年龄均值是:31.2岁很显然,在这组数据中,大部分人的年龄是10几岁的青少年,但是E的年龄是100岁为异常值,用均值来描述他们的年龄是31.2岁,很显然用均值作为描述这组数据是不合适的,那么我们该如何准确的表征这组数据呢???中位数中位数,又称中点数,中值。是按顺序排列的一组数据中居于中间位置的数。中位数的局限回到上一个例子,若用中位数来表征这组数据的平均年龄,就变得更加合理,中位数15。那么我们在看一下下面一组数据,中位数的表现又如何?中位数:45这组数据的中位数为:45,但是中位数45并不能代表这组数据。因为这组数据分为两批,两批的差异很大。那么如何处理这类数据呢?接下来介绍第三位平均数。众数众数是样本观测值在频数分布表中频数最多的那一组的组中值。平均数可以表征一批数据的典型值,但是仅凭平均数还不能给我们提供足够的信息,平均数无法表征一组数据的分散程度。2分散性与变异性的量度(全距,迷你距,四分位数,标准差,标准分)全距=max-min全距也叫“极差”极差。它是一组数据中最大值与最小值之差。可以用于度量数据的分散程度。全距的局限性全距虽然求解方便快捷,但是它的局限性在于“若数据中存在异常值的情况,会产生偏差。为了摆脱异常值带来的干扰,比如我们看一下下面的两组数据。只是增加了一个异常值,两组数据的全距产生了巨大的差异。四分位数所有观测值从小到大排序后四等分,处于三个分割点位置的数值就是四分位数:Q1,Q2和Q3。Q1:第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。Q2:第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。Q3:第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。迷你距 也叫“四分位距”迷你距。它是一组数据中较小四分位数与较大四分位数之差。即:迷你距= 上四分位数 - 下四分位数迷你距可以反映中间50%的数据,如果出现了极大或极小的异常值,将会被排除在中心数据50%以外。因此使用迷你距可以剔除数据中异常值。全距,四分位距,箱形图可以表征一组数据极大和极小值之间的差值跨度,一定程度上反应了数据的分散程度,但是却无法精准的告诉我们,这些数值具体出现的频率,那么我们该如何表征呢?我们度量每批数据中数值的“变异”程度时,可以通过观察每个数据与均值的距离来确定,各个数值与均值距离越小,变异性越小数据越集中,距离越大数据约分散,变异性越大。方差和标准差就是这么一对儿用于表征数据变异程度的概念。方差方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。标准差标准差为方差的开方。通过方差和标准差我们现在可以表征一组数据的数值的变异程度。那么对于拥有不同均值和不同标准差的多个数据集我们如何比较呢?标准分——表征了距离均值的标准差的个数标准分为我们提供了解决方法,当比较均值和标准差各不相同的数据集时,我们可以把这些数值视为来自同一个标准的数据集,然后进行比较。标准分将把每一个数据集转化为通用的分布形态,进行比较。标准分还有个重要的作用,它可以把正态分布变为标准正态分布,后文会有介绍。第一部分小节描述一批数据,通过集中趋势分析,找出其“代表值” ;通过分散和变异性的描述,查看这批数据的分散程度。集中趋势参数:均值,中位数,众数分散性和变异性参数 : 全距,四分位距,方差,标准差,标准分第二部分关于“事件”的研究分析概率论1一个事件的情况为了让读者更好理解,笔者概率论中最核心的概念以及概念之间彼此的关系绘制成了下图,那么接下来笔者开始“讲故事”了。事件:有概率可言的一件事情,一个事情可能会发生很多结果,结果和结果之间要完全穷尽,相互独立。概率:每一种结果发生的可能性。所有结果的可能性相加等于1,也就是必然!!!概率分布:我们把事件和事件所对应的概率组织起来,就是这个事件的概率分布。概率分布可以是图象,也可以是表格。如下图1和表2都可以算是概率分布期望:表征了综合考虑事情的各种结果和结果对应的概率后这个事情的综合影响值。(一个事件的期望,就是代表这个事件的“代表值”,类似于统计里面的均值)方差:表征了事件不同结果之间的差异或分散程度。2细说分布理想很丰满,现实很骨感。真实的生活中别说去算一个事件的期望,即使把这个事件的概率分布能够表述完整,每个事件对应的概率值得出来就已经是一件了不起的事情了。因此,为了能更快更准确的求解出事件的概率分布,当某些事件,满足某些特定的条件,那么我们可以直接根据这些条件,来套用一些固定的公式,来求解这些事件的分布,期望以及方差。“离散型”数据和“连续性”数据差异在我们展开分布的知识之前,先补充一个预备知识,什么是离散数据,什么是连续数据,它们二者之间有什么差异?离散数据:一个粒儿,一个粒儿的数据就是离散型数据。连续数据:一个串儿,一个串儿的数据就是连续型数据。好啦,开个玩笑!!!别打我,下面分享干货!!!其实上述描述并没有错误,离散型和连续型数据是一对相对概念,同样的数据既可能是离散型数据,又可能是连续型数据。判别一个数据是连续还是离散最本质的因素在于,一个数据组中数据总体的量级和数据粒度之间的差异。差异越大越趋近于连续型数据,差异越小越趋近于离散型数据。举个例子人这个单位,对于一个家庭来说,就离散型数据,一个家庭可能有 3个人,4个人,5个人....等等。对于一个国家来说,就是连续型数据,我们的国家有14亿人口,那么以个人为单位在这个量级的数据群体里就是连续型数据。清楚了离散型和连续型数据的差异,我们接下来一块科普这几种常用的特殊分布。离散型分布离散数据的概率分布,就是离散分布。这三类离散型的分布,在“0-1事件”中可以采用,就是一个事只有成功和失败两种状态。连续型分布连续型分布本质上就是求连续的一个数据段概率分布。正态分布f(x)----是该关于事件X的概率密度函数μ ---均值σ^2 ---方差σ ---标准差绿色区域的面积 ---该区间段的概率正态分布概率的求法step1 --- 确定分布和范围 ,求出均值和方差step2 --- 利用标准分将正态分布转化为标准正态分布 (还记得 第一部分的标准分吗?)step3 ---查表找概率离散型分布 → 正态分布 (离散分布转化为正态分布)精彩的地方在这里,笔者已经阐述了连续型数据和离散型数据是一对相对的概念,那么这就意味着在某种“边界”条件下,离散型分布和连续型分布之间是可以相互转化的。进而简化概率分布的计算。这里笔者不在偷懒直接上皂片了(编公式快吐了!!!!)3多个事件的情况:“概率树”和“贝叶斯定理”多个事件就要探讨事件和事件之间的关系对立事件:如果一个事件,A’包含所有A不包含的可能性,那么我们称A’和A是互为对立事件穷尽事件:如何A和B为穷尽事件,那么A和B的并集为1互斥事件:如何A和B为互斥事件,那么A和B没有任何交集独立事件:如果A件事的结果不会影响B事件结果的概率分布那么A和B互为独立事件。例子:10个球,我随机抽一个,放回去还是10个球,第二次随机抽,还是10选1,那么第一次和第二次抽球的事件就是独立的。相关事件:如果A件事的结果会影响B事件结果的概率分布那么A和B互为独立事件。例子:10个球,我随机抽一个,不放回去还是10个球,第二次随机抽是9选1,那么第一次和第二次抽球的事件就是相关的。条件概率(条件概率,概率树,贝叶斯公式)条件概率代表:已知B事件发生的条件下,A事件发生的概率概率树 --- 一种描述条件概率的图形工具。假设有个甜品店,顾客买甜甜圈的概率是3/4 ;不买甜甜圈直接买咖啡的概率是1/3 ;同时买咖啡和甜甜圈概率是9/20。从图中我们可以发现以下两个信息1. 顾客买不买甜甜圈可以影响喝不喝咖啡的概率,所以事件甜甜圈与事件咖啡是一组相关事件2. 概率树每个层级分支的概率和都是1贝叶斯公式 ----提供了一种计算逆条件概率的方法贝叶斯公式用于以下场景,当我们知道A发生的前提下B发生的概率,我们可以用贝叶斯公式来推算出B发生条件下A发生的概率。第二部分小节1. 事件,概率,概率分布之间的关系2. 期望,方差的意义3. 连续型数据和离散型数据之间的区别和联系4. 几何分布,二项分布,泊松分布,正态分布,标准正态分布5. 离散分布和正态分布可以转化6. 多个事件之间的关系,相关事件和独立事件,条件概率和贝叶斯公式第三部分关于“小样本”预测“大总体”现实生活中,总体的数量如果过于庞大我们无法获取总体中每个数据的数值,进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。1抽取样本总体:你研究的所有事件的集合样本:总体中选取相对较小的集合,用于做出关于总体本身的结论偏倚:样本不能代表目标总体,说明该样本存在偏倚简单随机抽样:随机抽取单位形成样本。分成抽样:总体分成几组或者几层,对每一层执行简单随机抽样系统抽样:选取一个参数K,每到第K个抽样单位,抽样一次。2预测总体(点估计预测,区间估计预测)点估计量--- 一个总参数的点估计量就是可用于估计总体参数数值的某个函数或算式。场景1:样本无偏的情况下,已知样本,预测总体的均值,方差。(1) 样本的均值 = 总体的估算均值(总体均值的点估计量) ≈ 总体实际均值(误差是否可接受)(2)总体方差 估计总体方差 场景2:已知总体,研究抽取样本的概率分布比例抽样分布:考虑从同一个总体中取得所有大小为n的可能样本,由这些样本的比例形成一个分布,这就是“比例抽样分布”。样本的比例就是随机变量。举个栗子:已知所有的糖球(总体)中红色糖球比例为0.25。从总体中随机抽n个糖球,我们可以求用比例抽样分布求出这n个糖球中对应红球各种可能比例的概率。样本均值分布:考虑同一个总体中所有大小为n的可能样本,然后用这个样本的均值形成分布,该分布就是“样本均值分布” ,样本的均值就是随机变量。中心极限定理:如果从一个非正态总体X中抽出一个样本,且样本极大(至少大于30),则图片.png的分布近似正态分布。区间估计量--- 点估计量是利用一个样本对总体进行估计,区间估计是利用样本组成的一段区间对样本进行估计。举个栗子:今天下午3点下雨;今天下午3点到4点下雨。如果我们的目的是为了尽可能预测正确,你会使用那句话术?如何求置信区间?(这里笔者讲一下思路,不画图码公式了,读者有兴趣可以查阅一下教材)求置信区间简便公式(直接上皂片)关于C值参数:置信水平 90% C=1.64 , 95% C=1.96 , 99% C=2.58待补充知识一(t分布)我们之前的区间预测有个前提,就是利用了中心极限定理,当样本量足够大的时候(通常大于30),均值抽样分布近似于正态分布。若样本量不够大呢?这是同样的思路,只是样本均值分布将近似于另一种分布处理更加准确,那就是t分布。这里笔者直接放张图,不做拓展了。待补充知识二(卡方分布)----注意待补充不代表不重要,是笔者水平有限,目前还不能用简单的语言概述其中的精髓。卡方分布的定义若n个相互独立的随机变量ξ、ξ、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。卡方分布的应用场景用途1:用于检验拟合优度。也就是检验一组给定的数据与指定分布的吻合程度;用途2:检验两个变量的独立性。通过卡方分布可以检查变量之间是否存在某种关联:3验证结果(假设检验)假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。两类错误---即使我们进行了“假设检验”依然无法保证决策是百分百正确的,会出现两类错误第一类错误:拒绝了一个正确的假设,错杀了一个好人第二类错误:接收了一个错误的假设,放过了一个坏人第三部分小节1. 无偏抽样2. 点估计量预测(已知样本预测总体,已知总体预测样本)3. 区间估计量预测(求置信区间)4. 假设检验第四部分相关与回归(y=ax+b)这里介绍的相关和回归是关于二维双变量的最简单最实用的线性回归,非线性回归这里不暂不做拓展。散点图:显示出二变量数据的模式相关性:变量之间的数学关系。线性相关性:两个变量之间呈现的直线相关关系。最佳拟合直线:与数据点拟合程度最高的线。(即每个因变量的值与实际值的误差平方和最小)误差平方和SSE:线性回归法:求最佳拟合直线的方法(y=ax+b),就是求参数a和b斜率a公式:b公式:相关系数r:表征描述的数据与最佳拟合线偏离的距离。(r=-1完全负相关,r=1完全正相关,r=0不相关)r公式:结束语笔者这里梳理了统计与概率学最基础的概念知识,尽量阐述清楚这些概念知识之间关联的关系,以及应用的场景。底层概念是上层应用的基础,当今浮躁的“机器学习”,“神经网络”,“AI自适应”这些高大上的关键字满天飞。笔者认为踏踏实实的把“基础”打扎实,才是向上发展的唯一途径。笔者水平有限,概念理解有偏差的地方欢迎批评指正。
00:49什么是统计学专业?大部分人对统计学的认识只停留在表面阶段,认为统计学就是简单的收集、整理和记录数据。其实不然,统计学不仅仅是简单的收集整理数据,它是一门通过分析挖掘数据内在数量规律性的科学,是一门研究如何解释、分析和应用数据的方法论科学,是一门融合自然科学和社会科学的学问。浙江大学数学系苏中根教授说:“统计学专业是学习和研究随机现象(不确定现象)规律的一门学科。随机现象广泛出现在自然界、人类社会活动和科学试验中,它通常具有三个基本属性:可重复性;不确定性;统计规律性。随机现象的规律用概率模型描述;因此,统计学旨在准确刻画和运用概率模型,包括模型建立、参数推断、假设检验、预测预报等。”统计学是通过搜索、整理、分析数据等手段,以达到推断所预测对象的本质,甚至预测对象未来的一门综合性学科。统计学专业学什么?统计学是应用数学的一个分支,无论是数理统计还是经济统计,统计推断都牢牢建立在数学基础之上。所以各校开设的课程中,数学课程都是统计学的基础课。这部分课程主要有:高等数学、线性代数、概率论与数理统计,有些要求较高的院校还会开设数学分析、解析几何、常微分方程、偏微分方程、复变函数等。另一部分是专业课,专业课的重点更多是让学生从统计的角度来思考问题。主要课程有:多元统计分析、抽样调查、运筹学、统计软件应用等。虽然在本科专业目录中,经济统计学不属于统计学类,但目前各高校的统计专业偏重经济方向的很多,课程设置也会根据培养方向有所差异。相近专业介绍应用统计学本专业培养具有良好职业道德,具备系统的统计学知识、了解统计学理论、掌握统计学的基本思想和方法,具有利用计算机软件分析数据的能力,能在经济、管理、生物、医药、金融、保险、工业、农业、林业、商业、信息技术、教育、卫生、医药、气象、水利、环境和减灾等相关领域工作的高素质、复合型的统计应用人才。经济统计学本专业培养德才兼备、站在时代前列,具有高度社会责任感,具备厚实的经济统计学理论方法与经济学理论基础和较强的创新与实际工作能力,具有广泛适应性的复合型高素质经济管理统计人才。本专业毕业生既能胜任企业和政府部门的统计业务,又能从事数据采集、数据分析、经济预测、经济信息分析和其他管理工作,还可进一步攻读硕士学位。统计学专业就业就业方向我国高校的统计学专业最初是面向政府培养人才。在满足政府统计人才需求的同时,各个高校统计学专业纷纷转为面向企业,面向社会,培养应用型统计人才。总的来说,统计学专业的就业范围较广,可以在各行业从事信息搜集、整理和分析工作,从事市场调研工作。就业职位涉及:统计分析员、数据统计员、调研员、精算师、会计、仓库管理、公务员、教师、人事专员等等。着重说四个方向:一是政府部门、统计局、各级管理部门等。政府部门一直是统计学毕业生比较理想的就业方向。主要从事普查、各种指数计算、报告编写等。二是银行、保险、证券公司等金融部门。主要从事金融行业的用户分析、风险分析,如一些高校开设了风险管理与精算方向,毕业生可以从事精算师等非常热门的职业。想要在这个方向发展需要学好各种模型、统计软件并补充一些经济、证券、财务等知识。三是市场调查公司、咨询公司、各公司的市场调研部门、各公司的人力资源部门和工业企业的质量监测部门等。这一方向主要是各公司的调研部门从事问卷设计、整理和分析数据、撰写数据报告等工作,也是该专业比较传统的就业方向。四是互联网行业。这一方向主要是在互联网公司做数据挖掘。从事这一方向除了传统统计学外,还要掌握一些编程、数据库语言的知识。统计学专业排名信息来源于高考GPS系统听听过来人的声音(仅供参考)“选择广”作者:今天不想洗头了(知乎网友)本人统计学专业在读,专业开设在数学科学学院,相对偏数学,不同学校开设院系可能不同。众所周知,随着大数据时代的到来统计学专业会很吃香。统计学强就强在开设不是很早,好多地方缺乏这类人才,普通本科大多数毕业去银行或一些与专业不匹配公司。统计学是以数学为基础,所以选择也很广,可以转其他专业。研究生毕业就业前景非常好,高校也缺乏统计学类的教师。需求广作者:知乎网友伴随着大数据的浪潮,如今各行各业都需要统计学的人才。从目前国内就业情况来看,金融类仍是高薪产业,也是很多统计专业学生最中意的行业。而具有统计学背景的学生相对于金融和经济专业的毕业生,专业知识更为定位明确,更富竞争力。报考指南需要较好的数学基础在《普通高等学校本科专业目录(2012年)》中,理学中的统计学类分为统计学和应用统计学,毕业后授予理学学士;在经济学类中,设有经济统计学,毕业后授予经济学学士学位。现在高校开设的统计学主要分为两个方向,一个是数理统计方面的,一个是经济方面的。其中,数理统计主要针对统计学基本理论和方法进行研究,比较偏纯理论,一般设在数学院较多;经济统计是运用统计学基础知识来科学调查、搜索经济信息、描述数据、分析数据,比较偏应用。无论是数理统计还是经济统计,都是以数学为基础的,且要求学生同时具备较高的计算机分析处理能力。目前,绝大部分高校统计学专业只招收理科学生。即使高考改革省份取消文理分科,选择该专业考生最好有一定的数学基础或本身对数学感兴趣为佳。看清院校的招生大类在高考填报志愿中,考生需要注意一下选择的大类。大多数学院的统计学是按专业名称或统计学大类招生。如北京师范大学、中央财经大学、天津财经大学、上海财经大学等。例如,中央财经的统计大类包含统计、经济统计、应用统计(金融统计)。考生在报考时只要了解一下大类中包含了哪几种统计学方向即可。但还有一些高校的统计专业包含在数学大类中招生。如北京大学、南开大学、南京大学、厦门大学等高校的统计学专业是包含在数学大类或理科实验班类中招生的。以北京大学为例,北大统计学专业设在数学科学学院的概率统计系中。数学科学学院按数学大学科招生,入学两年后学生可自由选择进入五个系之一学习。考生在报考时,一定要仔细阅读招生专业目录和高校院系专业介绍,以免造成不必要的疏漏。如何快速查看都有哪些高校招统计学专业?登陆高考GPS,在专业详情页,点击【查看招生【统计学】的院校】。*高考GPS给出了专业大类和专业小类的详细说明,今年有哪些大学招生这个专业、今年有哪些大类招生中包含这个专业都有说明,同一个专业在不同院校的设置有何不同,考生在选择时更加准确、减少遗漏。截图信息来源于计桥高考GPS来源:文章整理自高考GPS系统、知乎网友、网络,院校截图来源于计桥高考GPS系统,仅供参考。刊载此文是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请及时与我们联系,我们将及时更正、删除或依法处理。
一、绪论统计是一种关于人们认识客观世界总体数量变动关系及其规律的活动的总称,是人们认识客观世界的有力工具之一。统计在其诞生之初是作为一种社会实践活动,它为一国的统治者了解国家情况和管理国家提供重要的数量依据。但是随着社会经济和科技的发展,再加上由不断趋于完善和系统化的统计实践活动所孕育的统计学的自身进步,使得统计从最初的社会实践活动逐渐成为一种由科学理论所指导,帮助某一学科了解其领域内数量的变动关系及规律,从而更好地开展研究活动的方法论科学。人们通过统计设计(根据所要研究问题的性质,在有关科学理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准,同时提出收集、整理和分析数据的方案和工作进度等)、收集数据(即收集统计数据,一般通过实验法和调查法两种方法收集)、整理分析(对原始数据进行整理、加工、分析,用描述统计或推断统计两种方法)和开发应用这四个环节来开展统计研究,从而使收集的原始数据能更好地服务于所要开展的研究活动。现代统计学可以分为两大类:一类是以抽象的数量为研究对象,研究一般的收集数据、整理数据和分析数据方法的理论统计学(将研究对象一般化、抽象化,以数学中的概率论为基础,从纯理论的角度,对统计方法加以论证);另一类是以各个不同领域的具体数量为研究对象的应用统计学(与各不同领域的实质性学科有着非常密切的联系,是有具体对象的方法论)。将统计这一实践活动上升到理论,并加以总结和概括,就构成了统计学。从整体到局部,再从局部到整体,是我认为的学习一门学科较为系统性的路径。关于统计学的基本概念,它是由总体与总体单位、样本、标志、统计指标与指标体系、统计数据构成。其中:1) 统计总体是指根据一定目的确定的所要研究的事物的全体(它应该由足够数量的同质性单位构成);总体单位就是组成总体的各个个体,根据总体所包含的单位数量,分为有限总体和无限总体。2) 样本是指总体的部分单位所组成的集合,样本所包含的总体单位数称为样本容量。3) 标志是指总体各单位普遍具有的属性或特征。它分为品质标志(表明单位属性方面的特征,它的表现只能用文字或语言来描述,如性别)和数量标志(表明单位数量方面的特征,可以用数值来表现,如收入)、不变标志和变异标志。4) 统计指标是反映统计总体数量特征的概念(指标的概念)和数值(指标的取值),它分为数量指标(用绝对数表示)和质量指标(用相对数或平均数表示)。指标体系是指由一系列相互联系的统计指标所组成的有机整体,用以反映所研究现象各方面相互依存、相互制约的关系。5)变量是统计数据的主体,它被定义为说明现象的某一数量特征的概念,变量的具体取值被称为变量值;根据变量值连续出现与否,分为连续型变量(变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以任取任意实数值)和离散型变量(变量的数字只能用计数的方法取得,其取值是整数值,可以一一列举);定类尺度、定序尺度、定距尺度、定比尺度共同构成了统计数据的计量尺度,它们由低到高、由粗略到精确分层。
浅谈统计学在生活中的应用统计学并不是一门独立存在的学科,它是以数学知识和数理统计作为基础,将数理统计方法和其他学科专业知识交叉融合形成的具有极强推断性的一种分析方法。现阶段,随着科学技术的快速发展,为了加强对自然社会各个领域现象的判断和整理能力,将统计学应用在生活各个方面已经成为现阶段的数理统计的一种便捷方法。 一、统计学的概念 统计学指的是调研人员通过一些列的手段对整理出来的数据信息进行整理分析,从而推断出调研对象本质,甚至可以对未来的类似事情进行预判的一门综合性学科。在进行统计学整体分析的过程中需要用到大量的数学知识以及其他相关学科的专业知识,统计学由于其自身独特的性质,在社会科学和自然科学的各个领域几乎都可以使用。 二、统计学在生活中的应用分析 (一)统计学在经济学中的重要应用 运用统计学对生活中的数据信息进行整理分析,首先要学习统计学的基础知识以及数据统计个分析等学科,这些基础知识和方法都是在开展统计学应用活动之前调研人员所必须掌握的。统计学课程的学习作为经济学学科当中的重要分支,在经济学课程中经常被应用,例如,经济学的计量统计就需要根据统计学在金融里面的重要意义和地位作为基础,将金融知识和统计学知识相结合,将金融计量和时间的序列进行结合,对收集到的金融数据进行整理分析,最后得出金融计量和时间序列的一定关系。 统计学在金融经济学中有着十分重要的工具性作用,主要包括两个方面,分别是:在思想上而言,统计学是对数据统计分析结果进行研究,最后得出研究对象的判断结果,为了保证研究结果的准确可靠性,统计学在进行数据整理分析过程中必须是带着严谨的科学态度,这种严谨的科学态度对于经济学的相关理论分析具有十分重要的指导地位,这是由于研究人员在对金融量进行数学分析的过程中,为了保证金融数学分析结果的准确可靠性就必须保证金融量数据收集分析等预处理过程是科学合理的;其本收集整理次,统计学是经济学进行科学试验研究最优化的选择,经济试验研究活动的多样性以及研究对象之间错综复杂的关系导致经济学的试验研究活动受到诸多限制,运用统计学进行经济学试验研究活动,使得经济学实验研究的对象变得简洁明了,降低试验研究的成本支出。从统计学在经济学中的应用我们可以看出,经济学当中的统计学应用主要是运用了统计学当中经济必然性的思想,使得经济学当中的统计结论不具备复杂的思想成本。 (二)统计学在医学中的重要应用 统计学在医学中应用的主要原因就是生物医学中存在的不确定性和变异性。生物医学主要的研究目标就是与人体健康相关的不确定因素,也就是通常所说的医学变异现象,变异现象在生物体当中是普遍存在的,例如,对于外在条件基本相同的两个病人,在相同的条件下进行治疗时,却有可能出现有的病人被治愈,有的病人治疗效果不明显,甚至还会出现死亡的现象。造成这些外在条件相同的生命体却出现不同程度治愈的主要原因就是生物医学中存在的不确定性或者是人体中存在的错综复杂的随机因素,客观差异存在的原因是因为某种偶然性的潜在的揭露必然性的发现。 在医学临床统计中发现,对于同一种病因的客观性规律进行调查,对于健康人的共同作用的交织与疗效的考查的病人很少。在医学当中运用统计学最主要的就是通过观察不同疗效病人的医疗诊断效果,将实际的医学诊断治疗效果与医学理论和假设进行验证,运用概率论以及数学方法对对比结果进行分析、判断,运用电子计算机等相关软件设备对研究对象的指标进行记录,并绘制相应的图表等,通过综合运用多种数理统计方法,得出与研究对象相关的研究结果。将统计学应用到医学当中,可以促进统计方法和多变量分析法在医学试验研究中的应用,对未知病因所造成的医疗诊断事故进行分析,可以促进医疗诊治手段的不断创新發展。 (三)统计学在体育比赛中竞技指标的应用。 统计学在体育比赛中的应用主要是用统计的职业联赛的数字反应比赛队伍能否成为世界顶级,这是因为在体育比赛中应用统计学可以对比赛中的胜率进行分析,主要是将每个队员在每个赛季比赛的分数和常规赛场上的分数进行统计,通过一系列的数学计算分析,制定出每个队员得分平均值和标准差之间的正态分布图,通过正态分布图的稳定性来判断队员的技术稳定性。以众所周的NBA篮球比赛为例,NBA比赛中由于明星球员众多,在运用统计学进行数据整体分析时,需要依据本质上的规律进行数据统计,而不是随意的选择数据进行统计,例如在进行篮球比赛发球这一项双方队员的进攻和防守的概率时,在进行指标选择时就涉及到随机事件的发生概率,因此,可以运用统计学统计球员在每一场比赛上的均得分,通过这些数据指标的正态分布图来确定球员的技术稳定性。 三、结束语 在日常生活中应用统计学对数据进行管理分析,可以极大提高生产生活中对研究对象的管理效率,使得研究对象变得明确,降低管理成本。在实际的生产生活中应用统计学时,调研人员需要通过多次的试验和随机概率对比来确定事件发生的概率,通过定量定性的数理统计分析工作,充分发挥统计学对生产生活的促进作用。
从统计学角度讲,医学研究的基本原则主要包括三个,即对照、随机化和重复。之所以要遵循这些基本原则,其目的主要是:从处理因素这个要素的角度讲,就是要保障尽量控制混杂因素;从研究对象这个要素的角度讲,就是要保障其同质性、代表性和均衡性;从实验效应这个要素的角度讲,就是要保障观察结果的精度。下面,医刊汇编译就这三个基本原则做简要说明。一、对照原则。在设置接受处理因素的实验组时,应该同时设置没有处理因素的对照组,因此,对照原则主要是从处理因素的角度来控制混杂因素的。设立对照应满足均衡性,它是指在设立对照时除给予的处理因素不同外,对照组和实验组的其它一切因素应尽可能一致。设立对照时,应把研究对象随机地分入对照组和实验组中进行平行试验。为避免倾向性偏倚,一般应采用盲法。设立对照的方式有安慰剂对照、空白对照、自身对照、标准对照(也称阳性对照)等。此外,各组的例数应尽可能相等。二、随机化原则。随机化是指采用随机的方式,使得每个研究对象都有同等的机会被抽取或分到不同的实验组和对照组中,它包括随机化抽样和随机化分组。因此,随机化原则主要是从研究对象的角度来控制混杂因素的。常用的随机化抽样方法有简单随机抽样、系统抽样、分层抽样、整群抽样等。常用的随机化分组方法主要有简单随机化、分层随机化及区组随机化等。随机化分组应在实施处理因素的干预前利用随机数字表或由计算机采用统计专业软件产生随机数来完成。临床试验研究中,由于研究的对象是陆续进入试验观察的,往往不能采用随机抽样的方法获取研究样本,只能根据事先确定的样本量利用“三标准”来获得,但无论是否是随机抽样,获得研究样本后分组原则上应是随机的。三、重复原则。重复原则是指在相同试验条件下进行多次研究或观察,以提高试验的可靠性和科学性。包括整个试验的重复、多个试验对象的重复、同一个试验对象的重复观测。样本量充分反映了重复原则,试验对象的重复观察次数越多,由样本计算出的频率或均数等统计量就越接近总体参数。但样本含量过大或试验次数过多,不仅会增加控制试验条件的难度,且会造成不必要的浪费。因此,为了获得科学、可靠的结果而又节约研究的成本,在设计中应从统计学的角度进行正确的样本量估计。
经济统计学该专业是经济学类一级学科经济学所属的一个专业。经济统计学专业是统计学在经济领域中的应用学科,是以经济数据为研究对象,包括经济数据的采集、生成和传输,用统计方法分析经济数据背后的经济现象以及复杂经济系统的规律,从而为经济和管理决策服务。培养具有良好的数学与经济学素养,掌握统计学的基本理论和方法,能熟练地运用计算机进行数据处理、分析数据,能在企业、事业单位和经济、管理部门从事统计调查、统计信息管理、数量分析等开发、应用和管理工作,又能在保险、金融、投资、社会保障等方面从事风险分析和科学精算工作的德智体全面发展的高级实用型人才。经济统计学专业能在企事业单位和经济、金融和管理部门从事统计调查、统计信息管理、数量分析、市场研究、质量控制以及高新技术产品开发、研究、应用和管理工作,或在科研教育部门从事研究和教学工作的高级专门人才。统计学不仅要注重与其它学科的结合,统计学自身在统计原理、统计技术、统计方法等领域也要谋求创新和突破。一直以来,政府统计、部门统计在统计学生的就业中占有较高的比重。然而,随着社会主义市场的完善,随着中国全球化贸易的发展,民间统计越来越热。民间统计是政府统计之外的涉及市场调研、统计分析、预测和决策等内容的一系列统计活动,包括各类统计调查公司、统计信息咨询中心、统计师事务所、统计研究所,以及把统计方法运用于企业决策和管理的企业管理咨询公司等,是介于市场和企业、居民之间的一个桥梁,主要为企业和居民提供市场微观信息。民间统计机构,由于其服务的多样性、形式的灵活性,目前在我国获得大幅度的发展,已经逐渐为广大统计学生提供广阔的就业机会。随着民间统计机构的持续发展,民间统计机构必将成为统计学生就业的主要渠道之一。就业方向经济统计学就业方向可以面向金融,统计,经济,会计这四个大方向。而经济统计学毕业生中大部分人成为了会计,其次是数学教师,然后是银行等金融机构。金融统计学最好的就业方向就是进入事业单位,但这些单位往往很少招本科的学生,一般都是要求硕士以上学历。因而,对于本科生来说,经济统计学由于所学范围宽广,知识涉及学科较多,学得广而不精,所以在就业的时候就存在一个转向的问题。但数据处理是统计学的优势所在,是会计,经济等专业都没有的优势,所以不必为就业的问题担心。经济统计学专业大学排名学校名称1上海财经大学2北京工业大学3江西财经大学4暨南大学5湖南商学院6云南财经大学7西南财经大学8安徽财经大学9南京财经大学10海南大学11华中科技大学12安徽大学13东北财经大学14山东财经大学15中南财经政法大学16广东金融学院17新疆财经大学18山西财经大学19吉林财经大学20闽南师范大学理学大类——统计学类包括统计学和应用统计学两个专业。统计学 是应用数学的一个分支,主要通过利用概率论建立数学模型,收集所观察系统的数据,进行量化分析、总结,做出推断和预测,为相关决策提供依据和参考。它被广泛的应用在各门学科之上,从物理和社会科学到人文科学,甚至被用来工商业及政府的情报决策之上。随着数字化的进程不断加快,人们越来越多地希望能够从大量的数据中总结出一些经验规律从而为后面的决策提供一些依据。统计学专业不是仅仅像其表面的文字表示,只是统计数字,而是包含了调查、收集、分析、预测等。应用的范围十分广泛。统计学专业分为三个大的专业方向:数理统计方向、经济统计方向和应用统计方向。数理统计方向和经济统计方向的差距并不是很大,数理统计主要是对统计学的基本理论和方法进行研究;经济统计则是提供科学地调查、搜集经济信息,以及描述、分析经济数据并对社会经济运行过程进行预测、监督的一门科学。而应用统计学主要是调查、收集观察对象的数据信息,并通过描述统计等技术,分析观察对象的特征,发现事物的规律,进行预测、监督,以实现社会经济良性运行。统计学专业毕业生的主要就业流向有三大部分:政府部门(统计局等),银行、保险公司、证券公司等金融部门,市场调查公司、咨询公司、各公司的市场研究部门,工业企业的质量检测部门等企业事业单位。统计学专业大学排名学校名称1中国人民大学2华中科技大学3重庆大学4中南大学5中南财经政法大学6吉林大学7西南财经大学8东华大学9华中师范大学10首都经济贸易大学11南京师范大学12山东大学威海分校13北京林业大学14郑州大学15大连海事大学16太原理工大学17湖南师范大学18湘潭大学19内蒙古大学20青岛理工大学应用统计学专业主要包括一般统计和经济统计两类专业方向,培养具有良好的数学或数学与经济学素养,掌握统计学的基本理论和方法,能熟练地运用计算机分析数据,能在企业、事业单位和经济、管理部门从事统计调查、统计信息管理、数量分析等开发、应用和管理工作,或在科研、教育部门从事研究和教学工作的高级专门化应用型人才。该专业学生主要学习统计学的基本理论和方法,打好数学基础,具有较好的科学素养,受到理论研究、应用技能和使用计算机的基本训练,具有数据处理和统计分析的基本能力。统计学专业毕业生的就业前景非常好;主要到政府统计部门、经济管理部门,银行、证券公司、保险公司等金融机构以及信息咨询公司等从事研究和教学工作或者到大型企业部门从事数据分析工作。应用统计学专业的毕业生主要到企业、事业单位和经济、管理部门从事统计调查、统计信息管理、数量分析等开发、应用和管理工作,或在科研、教育部门从事研究和教学工作。具体来讲,主要有升学(攻读博士学位);出国留学;金融和保险部门;投资、证券及社会保障机构;市场调研、咨询及信息产业部门;国家统计部门;各类公司等就业途径。应用统计学专业大学排名学校名称1中山大学2浙江工商大学3中国人民大学4上海财经大学5西安财经学院6中央财经大学7南方医科大学8南京医科大学9南京邮电大学10嘉兴学院11重庆理工大学12重庆医科大学13上海第二工业大学14天津工业大学15哈尔滨理工大学16安徽大学17北京工商大学18长沙理工大学19江西财经大学20中南民族大学统计学更侧重理论研究,而应用统计学更侧重实际应用领域,经济统计学则以经济领域的实际应用为主。
统计学专业の介绍理学→统计学类→统计学专业01专业介绍大部分人对于统计学的认识只停留在表面的阶段,认为统计学就是简单的收集整理和记录数据,其实不然,统计学不仅仅是简单的收集整理数据,它是一门通过分析挖掘数据内在数量规律性的科学,是一门研究如何解释分析和应用数据的方法论科学,是一门融合自然科学和社会科学的学问,浙江大学数学系苏中根教授说,统计学专业是学习和研究随机现象规律的一门学科,随机现象广泛出现在自然界,人类社会活动和科学实验中。它通常具有三个基本属性,可重复性、不确定性、统计规律性,随机现象的规律用概率测预报道,总的来说统计学是通过搜索整理,分析数据等手段以达到推断所预测对象的本质,甚至预测对象未来的一门综合性学科。统计学是应用数学的一个分支,无论是数理统计还是经济统计,统计推断都牢牢建立在数学的基础之上,所以各个学校开设的课程当中,数学课程都是统计学的基础课,因此学习统计学数学基础一定要好。02主干课程数学分析、几何代数、数学实验,常微分方程,复变函数,实变与泛函、概率论、数理统计,抽样调查,随机过程,多元统计,计算机应用基础,程序设计语言,数据分析及统计软件、回归分析,可靠性数学,实验设计与质量控制,计量经济学,经济预测与决策,金融数学,证券投资的统计分析,数值分析,数据结构与算法,数据库管理系统,计算机网络系统,系统分析与软件设计。主干学科:统计学、数学。核心知识领域:统计学基本思想、数学理论、概率论、统计调查、参数估计与假设检验、非参数 方法、回归分析、多元统计方法、随机过程、时间序列分析、试验设计和统计软件。03就业方向学了统计学以后能做什么呢,统计学专业就业范围是比较广的,就业职位,涉及统计分析员,数据统计员,调研员,精算师,会计,仓库管理,公务员教师,人事专员等等,最主要还是有4个大的就业方向:一是政府部门,统计局、各级管理部门等等,政府部门一直是统计学毕业生比较理想的就业方向,主要从事普查、各种指数计算,用户报告等;二是银行、保险、证券公司等金融部门,主要从事用户分析、风险分析等,比如一些高校就开设了风险管理与精算方向,毕业生可以从事精算师等一些比较热门的职业;三是市场调查公司,咨询公司,各公司的市场调研部门,各公司的人力资源部门和工业企业的质量监测部门等;四是互联网行业,这一方向主要是在互联网公司做数据挖掘。04考研方向统计学、应用统计学、工商管理05院校推荐统计学专业的领头高校有:复旦大学,北京师范大学,四川大学,山东大学,南开大学和吉林大学;211高校,有西南财经大学,上海财经大学,云南大学和位于广州的暨南大学等。
012020年在山东招统计学类专业的学校,共100余所,总计划招生1577人,实际招生1579人(宁波诺丁汉大学计划招生1人,实际投出3人)。022020年在山东招统计学类专业的学校,按最低录取分数排列,由高到低前五名学校有上海财经大学(统计学类665分)、中央财经大学(统计学类662分)、厦门大学(统计学类657分)、华东师范大学(统计学类656分)、湖南大学(统计学类636分)。03在选科要求方面,从上面表格整理的前50名总体来看,所有统计学类专业的高校都有选科要求,一般受物理、化学、生物三科的限制。部分高校要求物理或化学或生物(三选一),比如湖南大学的统计学类、北京林业大学的统计学、西南交通大学的统计学;少数高校要求物理或化学(二选一),比如华东师范大学的统计学类;少数高校要求物理或生物(二选一),比如西安财经大学的应用统计学;部分高校要求必须选择物理,比如上海财经大学的统计学类、中央财经大学的统计学类、厦门大学的统计学类等;04来看看省内几所高校统计学类专业的录取最低分,山东财经大学统计学最低录取分数574分,最低位次50114;山东科技大学统计学最低录取分数567分,最低位次57854;青岛理工大学统计学最低录取分数556分,最低位次72433;齐鲁工业大学应用统计学最低录取分数536分,最低位次103704;山东建筑大学应用统计学最低录取分数527分,最低位次118258。专业介绍统计学是关于如何测度、收集、整理、分析和解释数据的科学和艺术。作为一门探索事物间数量规律的方法论科学,统计学的思想、方法和工具已广泛应用于社会经济管理、生产经营活动、科学研究与技术开发等社会科学和自然科学各个领域。现代统计学一般分为(理论)统计学和应用统计学两大类。理论统计学是以一般化、抽象化的数据为研究对象,以概率论和其他相关的数学方法为基础,从理论角度对统计方法加以推导论证。应用统计学则是以各个领域的具体数据为研究对象,从所应用的领域或专门问题出发,根据研究对象的性质采用适当的指标体系和统计方法,以解决相关领域所需研究的问题,常常被冠名为诸如“社会经济统计学”“生物统计学”“工业统计学”等专门称谓。在统计科学的发展过程中,理论统计学的研究为应用统计学的数量分析提供方法论基础,大大提高了统计分析的认知能力,而应用统计学在对统计方法的实际应用中,又常常会提出新的问题,进一步开拓了理论统计学的研究领域。统计学专业培养具有较强的创新精神和扎实的数学基础,掌握现代统计学的基本思想、基本理论和方法以及相关的计算机技术,具有一定的专门领域知识和收集数据与分析数据的能力,能够适应不同领域统计基础理论研究与应用需要的专门人才。未来就业与发展统计学是关于数据的科学,哪里有数据,哪里就需要统计学。统计学类专业毕业生的就业前景相当广阔,遍布各个学科和各个领域。例如,动物学、人类学、遗传学、考古学、地理学、社会学、心理学、地质学、文学、语言学等各个学科;金融研究、水产渔业研究、历史研究、劳动力计划、市场营销、医学诊断、教育评估、选举预测、流行病监测、安全管理、质量控制等各个领域。总之,任何有数据沉淀的行业部门和企事业单位,都会有统计学类专业毕业生施展本领的空间。毕业生如能深耕一些行业的背景知识和业务逻辑,再结合统计学分析工具和方法,必定会有一番作为。近年来,统计学类专业毕业生已成为各行业争相招揽的人才,从岗位配角向岗位主角蜕变。毕业生的就业方向主要是读研或出国深造、各级政府机关和事业单位、金融类机构、各类企业或公司,尤其是互联网公司往往成为毕业生就业的首选,数据调查公司和咨询公司则会提供与专业高度契合的应用大数据技术等数据研究类工作。伴随经济全球化和互联网技术发展,从海量数据中创造价值已成为各行业共同面临的金矿,与数据尤其是大数据相关岗位的人才需求旺盛,未来的智能时代更是需要统计人才。【来源:山东高考一点通】声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 邮箱地址:newmedia@xxcb.cn
有些东西,不了解它的本质会感觉美好,比如魔术。有些东西,了解了它的本质才会感觉美好,比如统计学。“每日科学”网站发布了一则来自美国堪萨斯大学的调查结果,80%的大学生都存在统计学焦虑。他们普遍觉得“我的高中数学都学得不怎么样,怎么可能学会统计学?”因此,他们在选课时不约而同地将统计学推迟到大四。甚至有一位心理学的学生,因为统计课上的问题,花了七八年才拿到学士学位。因为每当考试的时候,他总是目光呆滞地望着试卷。直到最后一次,教授不得不将他带到办公室答题,才得以顺利完成考试。统计学真的这么难,要视为洪水猛兽吗?当然不是。产生焦虑的人群往往是被学习统计学的恐惧所压倒,并不是他们完全学不会。就拿那个七八年才通过统计学考试的学生来说,离开了考场,在一个不像考试的环境里答题,他就能够获得通过。而且,据他的导师评价,在他从事心理治疗行业以后,统计工作做得还不错。其实我们真的没有必要那么焦虑。就像美国达特茅斯大学经济学教授查尔斯·惠伦所说:“统计学真的可以非常有趣,而且其中绝大部分的内容也没有那么难。”惠伦教授所著的《赤裸裸的统计学》是一本关于统计学常识的科普书,他从理财投资、民意调查、医疗健康、刑事判决等生活案例中剥茧抽丝,向我们展示了妙趣横生的统计学规律。接下来,我们将从无处不在的统计学、趣味盎然的统计学和会欺骗人的统计学三个方面,带大家了解这本书的核心内容,正确而全面地认识统计学原理的广泛性、趣味性和可靠性。听完本期解读,或许你会重新认识统计学对你生活的影响,或许你会爱上它。下面,我们首先来看一看无处不在的统计学。01 无处不在的统计学我国著名的数学家华罗庚说起数学的用途,是“宇宙之大,粒子之微,火箭之速,化工之巧,地球之变,生物之谜,日用之繁,无处不同。”作为数学的分支,统计学在人类生活中的作用也大抵如此。从国家政策的制定到个人高考志愿的填报,从DNA(脱氧核糖核酸)的检测到综艺娱乐,都离不开统计学的功劳。我们可以从个人、集体、国家三个层面来了解统计学的作用。首先来看统计学与个人的关系。有很多人热衷于买彩票,我们就从彩票开始。某地的彩票以一万份为一个开奖组,设有一、二、三等奖。这一万份中,中一等奖的概率是万分之一,也就是只设1个一等奖。中二等奖的概率是千分之一,共有10个。三等奖有100个,中奖概率是百分之一。当你看到一等奖的奖金有5000元,二等奖的奖金200元,中了三等奖也有10元的奖金时,会不会迫不及待地掏出你的钱包,期盼好运会降临到你的头上?如果我告诉你,要是花2元钱买了这张彩票,回报只有八毛钱,而且这八毛钱也未必回到你的钱包里。你还会这么做吗?我的依据是数学期望。期望是统计学中的一种平均值,将每一个等级的中奖概率乘以奖金额度,最后将得到的结果相加,就能够计算出购买此类彩票的平均值0.8。实际上,期望值是所有管理决策过程中,尤其是金融领域最实用的统计工具,无论是买股票还是理财产品,它都可以帮助你做出决定。说回彩票,有人还是认为,这张彩票没有中奖是运气不好,如果一直买下去,总有一次能中奖。实际上,一个人长年累月地买彩票,中小奖的可能性很大,但是想通过中大奖赚回远比买彩票还要多的钱,则几乎不可能。这就要用到统计学的一个重要定律:大数定律,也就是随着试验次数的增多,结果的平均值会越来越接近期望值。刚才我们计算过,购买彩票的期望值就是花2元钱赚回0.8元。查理·芒格说“哪怕只是休闲娱乐。 如果概率对我不利,我都不愿参与。”希望你也能像他这么想。统计学不仅可以给个人提供帮助,更可以用于集体。你应该听说过“样本”这个词,我们常常需要从包含了大量个体的对象中抽取一小部分作为样本,来推理这个对象的特征,而不是直接利用这个对象本身。这个对象我们称为总体。如果研究的对象是人,那么一个集体就是总体。统计学中有一条中心极限定理,它已经证明,在正确抽样的前提下,样本与它所代表的总体存在相似关系。也就是说,我们不必把每一个个体都拿出来研究,研究有限的样本就足够了。比如上级领导要评估一所高校的人才培养质量,其中一项工作就是对这个学校前几年毕业生的毕业论文进行抽查,论文总数就是一个总体。每年毕业的学生数量那么多,当然不能对每位学生的论文进行检查,抽样才是最正确的。抽取出的学生论文能否准确反映出这所学校毕业生的整体水平呢?答案是肯定的。中心极限定理告诉我们,只要是进行正确的抽样,100个学生样本的成绩分布与全校几万名毕业生的成绩分布不会有太大差异。人数再多也不影响中心极限定理的应用,比如用于国家层面。2011年下半年,《纽约时报》头版报道了“美国全国陷入了对未来的深深忧虑和怀疑中”的状况,其中包括高达89%的美国人不相信政府会做正确的事,有2/3的美国公众认为,财富应该在美国得到更加公平的分配,有46%的美国人认可奥巴马作为美国总统的工作表现等等,显然他们不会向3亿多美国人逐个提问,而是抽取其中一小部分人完成这个民意调查。现在你应该大致了解了统计学在个人、集体甚至国家这些不同层面上的应用,但你可能还是觉得,统计学总是用在那些严肃而又重大的场合,又或者学术研究上,它始终是枯燥乏味的。那么,接下来,我们瞧一瞧统计学有趣的一面。02趣味盎然的统计学统计学的有趣并不意味着你在看书或者计算的时候哈哈大笑,毕竟它既不是漫画也不是魔术。统计学的有趣在于,用好了它,一些事情就会变得有趣起来。盲品测试是商业市场经常使用的产品测试方法,在测试过程中隐藏被测试产品的品牌、包装或其它可以识别的内容,由消费者对产品进行鉴定和选择。1972年百事可乐公司就曾用盲品测试的方法创造了营销经典案例“百事挑战”,在可口可乐爱好者多出3倍的情况下逆袭,直至与对手平分秋色。如果结合多一点统计学知识,盲品测试还能为你创造惊人的广告效应。美国约瑟夫·施利茨啤酒公司做过这么一次电视直播,邀请了100个声称偏爱对手公司产品的消费者参加盲品测试。注意,邀请的不是他们自己的忠实客户,而是对手公司的。为什么要这么做呢?要知道,大多数消费者进行盲测时基本区分不出任何一种啤酒品牌。如果提供了两种啤酒,从概率上来看,将会有一半的人选择对手产品,一半的人选择施利茨。要是100个钟爱竞品的消费者里有一半人都改口说喜欢自己家的产品,那会造成多么轰动的效果!施利茨公司的高明之处正在于此。你或许有疑问,即使每一位消费者都有1/2的机率选择施利茨啤酒,但有没有可能恰好直播这一次,更多的人选择了对手产品呢?这种令人尴尬的情况当然是有可能发生的。这时我要给你讲讲概率中的一个重要试验——伯努利试验,又称为二项分布。在试验次数固定、每一次试验中目标事件的概率也固定的情况下,如果试验都是相互独立不受影响的,那么我们完全可以根据目标事件发生的次数,计算出这个次数发生的总概率。比如说,施利茨公司认为,现场至少有40名消费者选择施利茨啤酒,活动才算是成功,那么目标事件发生的次数就是大于等于40,使用二项分布可以算出概率为98%。也就是说,如果举办一次100人的盲品测试,会有98%的机率让超过40个钟爱对手公司啤酒的消费者亲口说自己家的啤酒更好喝,这就是施利茨公司对电视直播充满信心的主要原因。而且,概率的计算过程也非常简单,如果你是一个销售经理,想不想复制一次这样的活动呢?除了商业,统计学可以给更多行业添加有趣的成分,尤其是娱乐业。娱乐业用上了统计学,可以增加节目的刺激性和趣味性,使节目变得更加精彩,《开门大吉》正是如此。游戏规则是:选手面对编号分别为1-4号的大门。依次按响门上的门铃,会听到一段音乐。选手正确回答出这首歌的歌名,就能获得这扇门对应的家庭梦想基金。节目的悬念不断、掌声不断,是因为在每一扇门前,选手可能选择继续比赛,也可能放弃。播放的每一首歌,没人能保证选手有多大的机率猜对,越是难猜,观众就越期待。而这些节目组都知道。选手放弃或继续比赛的概率都是1/2。选手猜对歌曲,也就是通过每一扇门的概率,节目组根据选手年龄层次和歌曲受众人群的匹配度,由大数据可以估算出来。再加上,选手通过的每一扇门都是相互独立的。综合这三点,节目组可以计算出选手们最终获得梦想基金的期望值,这个值对节目来说非常重要。那么,还记得我们刚才对彩票期望值的计算方法吗?过程大致相同。将通过不同门数的概率分别乘以通过不同门数的奖金,最后将得到的结果相加,就得到梦想基金的期望值。不过,这里的概率比较复杂。因为一个选手可能只通过一扇门,也可能接连通过二、三、四扇门,也可能挑战失败。这里要使用独立事件的乘法公式,通过了几扇门,就把各扇门的通过概率依次相乘,从而算出通过不同门数的概率值。除了正式的综艺节目,明星的超话排名、社交网站推送的短视频,都有统计运算带给我们的惊喜。生活在大数据时代,统计学给我们带来了许多乐趣。实际上,统计学与我们的生活、工作、学习、娱乐都息息相关,以至于我们常常会过于相信和依赖它,忘记了它也有可能欺骗我们。————————休息一会儿,请接着阅读:【你有没有想过,你可能高估了统计学(二)】,跟着我,继续揭开统计学的秘密。
专业解析定义:统计学是通过搜索、整理、分析数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。其中用到了大量的数学及其它学科的专业知识,它的使用范围几乎覆盖了社会科学和自然科学的各个领域l现状: 大数据时代来临!最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 而如何盘活这些数据资产,使其为国家治理、企业决策乃至个人生活服务,是大数据的核心议题。也正因如此,统计学人才在当今十分受追捧,发展前景一片光明!统计学处理数据的流程1.收集数据:从海量数据中搜集出对研究对象有价值的、有实质意义的、正确的数据信息,筛除虚假的、无关的、错误的数据。2.分析数据:对高质量数据进行分析和interpretation,使数据的内在含义浮出水面,更加清晰。3.得出结论:通过对数据的分析及其意义的诠释,得出对研究对象现状描述性的或对研究对象未来发展趋势的判断性的结论。描述统计学(descriptive statistics) :描述统计学是研究如何取得反映客观现象的数据,并通过图表形式对所搜集的数据进行加工处理和显示,进而通过综合概括与分析得出反映客观现象的规律性数量特征的一门学科。推论统计学(inferential statistics):推论统计学是研究如何根据样本数据去推断总体数量特征的方法,它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。理论统计学:理论统计学是把研究对象一般化、抽象化、以概率论为基础,从纯理论的角度,对统计方法加以推导论证。中心的内容是统计推断问题,实质是以归纳方法研究随机变量的一般规律。例如统计分布理论,统计估计和假设检验理论,相关与回归分析,方差分析,时间序列分析、随机过程理论、因果关系模型、贝叶斯定理等。是研究统计现象背后的理论基础的学科。l应用统计学:研究统计学理论方法在各个行业与领域的实际应用的学科。统计学主要的应用领域:l金融:商业银行;投资银行;金融咨询。类似于金融工程与金融数学专业研究的内容。l保险:精算l计算机&网络:IT公司、电子商务公司的数据挖掘与数据分析l环境:环境评估;环境数据分析l医药:生物统计;药品的市场投放;健康数据监测l国际贸易:进出口市场分析;贸易数据分析政府:统计局就业l就业领域非常广,需求量巨大,统计专业人才越来越受重视。l就业方向:保险精算师、数据分析师、生物统计师、市场调研专员、统计局等l薪资待遇:$60,000-80,000/yl为了在就业市场上取得先机,你需要:1.具备扎实的统计学理论方法知识和数学基础2.对某个特定领域有浓厚的兴趣3.计算机编程能力和统计软件的熟练应用(C++, SPSS, SAS)统计学的教育国内统计学强校:l 厦门大学l 中国人民大学l 上海财经大学l 杭州商学院l 天津财经学院l 中南财经政法大学l 北京大学l 复旦大学l 南开大学l 东北财经大学l 暨南大学l 中央财经大学l 西南财经大学l 辽宁大学美国统计学核心课程:lApplied Statistical Computation with SASlProbability Models and InferencelStatistical Methods for the Social ScienceslMathematical StatisticslTheory of Linear ModelslStochastic ProcesseslRegression TheorylTime Series Analysis美国统计学专业学校lTier 1:Harvard, Yale, Stanford, Chicago, Duke, UMich,UWM—名校, 3.7, 325, 110lTier 2:Columbia, Upenn, Cornell, JHU, Rice, UCB, CMU, USC, UCLA, Virginia, UNC, UND, NYU,Rochester, UW, UCSB, UCI, UFL, PSU, Pure, VT, NCSU—211院校, 3.5, 325, 105lTier 3:WUSTL, Georgetown, UCD, UCSD, BU, OSU, Upitts, UMN, TAMU, America U —211院校, 3.5, 320, 100lTier 4:Lehigh, Gatech, Austin, UIUC, Maryland, Tulane, Rutgers, Delaware, IUB, Miami, BYU, WPI—211院校, 3.3, 320, 100lTier 5: UGA, CWRU, SMU, SUNY-SB, Uconn, Missouri, MSU, Oregon State U, Iowa, Colorado, ISU,Temple, FSU —3.0, 315, 95lTier 6:Syracuse, Clemson, Auburn, SIT, GWU—3.0,选校时其他需要考虑的因素l慎选招生量少的学校:Harvard, Yale, UPenn, Duke, JHU, Rochester, UND, UNC, UWM, UCSD, Upitts, BU, Gatech, UCD, Maryland, UW, PSU, Pure, Delawarel对转专业比较宽容的学校:Columbia, Lehigh, Rutgers, Delaware, MSU, Auburn, Missouri, GWUl偏理论的学校:Duke, WUSTL, USC, Rochester, UNC, UWM, VT, Upitts, PSU, Maryland, IUB, Lehigh, Tulane, UW, UFL, Miamil偏应用的学校:Upenn, Cornell, UND, UCLA, CMU, Umich, Gatech, Syracuse, WPI, Missouril偏金融的学校:Yale, Chicago, UCB, Austin, BU, Clemson, Rutgers, SUNY-SB, UConnUniversity of Chicagol MS in Statisticsl Department of Statistics, Division of the Physical Sciencesl 学制:2 yearsl 地理位置:伊利诺伊州芝加哥市l 研究方向:l Data Analysisl Mathematical Statisticsl Biostatisticsl Statistical Geneticsl Statistics and Financel Computer Visionl Survey Statisticsl 招生量:20-40人成功案例:l A同学,北京大学统计专业,GPA3.8,G323,T109,农行实习l B同学,厦门大学统计专业,GPA3.7,G320,T107,广发证券实习总结:该项目非常看重申请者的数学背景,被录取的学生多为本专业,并且多为国内顶尖的统计学专业院校或海外院校的学生。项目选课上面比较自由,可以选很多学院的课程,项目偏金融方向。Stanford UniversitylMS in StatisticslDepartment of Statistics, School of Humanities and Sciencesl学制:45 credits, at most 3 yearsl地理位置:位于加州的帕洛阿尔托市,距离旧金山不远l核心课程:lProbabilitylStochastic ProcesseslApplied StatisticslTheoretical Statisticsl招生量:40-60人成功案例:l A同学,中国人民大学应用统计专业,GPA3.9,G329,T106,链家地产数据分析实习l B同学,北京大学统计专业,GPA3.6,G330,T113,PICC实习总结:该项目学费偏贵,但是在高端学校中算招中国学生比较多的。课程设置上理论统计和应用统计兼顾,学生可以依据自身的职业发展规划相应选择。Cornell UniversitylMaster of Professional Studies in Applied StatisticslDepartment of Statistical Sciencel学制:1-2 yearsl地理位置:纽约州西北部手指湖地区伊萨卡市lTracks:lOption 1: Techniques of Statistical AnalysislOption 2: Data Sciencel招生量:40-50人成功案例:l A同学,天津财经大学数学与应用数学专业,GPA3.7,G323,T105,汇丰银行实习l B同学,中央财经大学数学与应用数学专业,GPA3.8,G314,T107,投资公司实习总结:这个项目还是很有特色的,创建也有10余年了。Council of Graate School将这个项目认证为PSM,即Professional Science Master’s。另外这个项目有两个方向,申请者必须在PS中明确指出你想要就读哪个方向。Option 1偏重学习统计分析方法,而Option 2在前者的基础上,更偏向计算机,比如high performance computing, databases, middleware, and scripting这些内容的学习。另外学生到底是1年还是1.5年还是2年毕业,是由其先修课丰富程度而定的。Carnegie Mellon Universityl Master’s of Statistical Practice Programl Department of Statistics, Dietrich College of Humanities & Social Sciencesl 学制:1 yearsl 地理位置:宾夕法尼亚州的匹兹堡市l 课程设置:l 8 courses. The emphasis of the program will be primarily on statistical methods, data analysis, and professional development. Data Analysis and Methods Core (~50%): Emphasis will be on applied linear and non-linear models; supervised data analysis; model diagnostics and sensitivity analyses; communicating analysis results. Methods course will include topics in continuous and discrete multivariate analysis, survey sampling, time series, and biostatistics. Professional Development and R(~25%): Topics to include: Communication skills – both written, oral, and web design; Computing skills – SAS and data base management; Professional and research ethics; Resume writing and interview skills; A data analysis portfolio; Introction to consulting; Supervised consulting experiences; Careers in Statistics Speaker Series. Theory Core (~25%): Emphasis will be on the theory of probability and mathematical statistics that form the foundations for statistical methods and practice.l 招生量:20-30人成功案例:l A同学,复旦大学应用经济学专业,GPA3.5,G325,T103,国家统计局实习l B同学,中国人民大学金融学(数学实验班),GPA3.4,G327,T104,百度实习总结:该项目开设的时间不长,仅5-6年的时间。该项目美国本土生读的比较多,相比而言中国人少一些,比较适合不喜欢中国人扎堆的学生申请。该项目对申请者编程能力要求比较高,如果学生编程能力差,尽量不要选择,学起来会很痛苦。Columbia UniversitylMA in StatisticslDepartment of Statistics, College of Arts & Sciencesl学制:1.5 yearsl地理位置:美国纽约市曼哈顿l核心课程:lProbability and InferencelLinear Regression ModelslApplied StatisticslAdvanced Data Analysisl招生量:100-150人成功案例:l A同学,武汉大学统计学专业,GPA3.2,G313,T98,用友软件实习l B同学,华中师范大学信息与计算科学专业,GPA3.1,G318,T101,2段研究项目,MCM经历总结:哥大的统计近年受到一些非议,不少人觉得很水,课程深度比较浅。该项目招生量比较大,高端学生可以拿哥大做保底,中端学生可以主申。University of California-DavislMS in StatisticslDepartment of Statistics, College of Letters & Sciencel学制:36 creditsl地理位置:加州首府萨克拉门托市西部l核心课程:lIntroction to Probability TheorylIntroction to Mathematical StatisticslMultivariate Data AnalysislStatistical Methods and ResearchlIntroction to Statistical ProgramminglComputational Statisticsl招生量:30-50人成功案例:l A同学,辽宁大学统计学专业,GPA3.4,G310,T103,工行、花旗银行实习l B同学,东北财经大学统计学专业,GPA3.5,G318,T100,统计局和证券公司实习总结:UCD还是比较挑国内学校的,名校的案例多。如果学校档次稍微低一点但是其他方面条件比较突出,也不影响录取。Lehigh UniversitylMS in StatisticslDepartment of Mathematics, College of Science and Engineeringl学制:30 creditsl地理位置:宾夕法尼亚州费城以北70英里的伯利恒市(Bethlehem),地处理海山谷。距离费城和纽约都比较近。lTracks:lOption One: StatisticslOption Two: Stochastic Modelingl招生量:80-100人成功案例:l A同学,中南大学数学与应用数学专业,GPA3.0,G315,T94,汽车公司市场部实习l B同学,北京航空航天大学统计学专业,GPA3.2,G320,T99,建设银行实习总结:这个项目比较偏理论一些,适合今后继续读PHD,概率论的内容很多。申请难度中等偏下,条件还不错的申请者可大胆尝试。University of Connecticutl MS in Statisticsl Department of Statistics, College of Liberal Arts and Sciencesl 学制:1.5 yearsl 地理位置:位于康涅狄格州曼斯菲尔德镇的斯托尔斯l 核心课程:l Elementary Stochastic Processesl Nonparametric Methodsl Applied Statisticsl Distribution Theory for Statisticsl Advanced Statistical Methodsl Mathematical Statistics.l Inferencel 课程介绍:l The MS program emphasizes applied statistics and requires students to take at least one course in areas of application. The plan of study for this degree may be formulated with related work in almost any area, e.g., Biology, Business, Economics, Nutrition, and Psychology to name a few.l 招生量:30-50人成功案例:l A同学,西安电子科技大学统计学专业,GPA2.9,G308,T88,国内会计师事务所实习l B同学,中国石油大学数学专业,GPA3.0,G305,T91,国内银行实习总结:申请难度比较低的项目,但是也不能完全当做保底校对待。Syracuse UniversitylMS in Applied StatisticslCollege of Arts and Sciencesl学制:33 creditsl地理位置:坐落于美国纽约州雪城l核心课程:lIntroction to probability and statisticslMathematical statisticslRegression analysislStatistical consultingl招生量:30-50人成功案例:l A同学,北京工业大学市场营销专业,GPA3.1,G311,T90,房地产公司市场部工作1年l B同学,太原理工大学信息与计算科学专业,GPA3.0,G308,T92,市统计局实习总结:雪城的applied statistics项目是一个interdisciplinary program,多个学院联合办学并授课。选课范围比较宽松,学生可依据兴趣和发展规划选择合适的课程。申请难度比较简单。George Washington Universityl MS in Statisticsl Department of Statistics, Columbian College of Arts and Sciencesl 学制:30 creditsl 地理位置:首都华盛顿l 主要课程:l Mathematical Statisticsl Methods of Statistical Computingl Data Analysisl Applied Linear Modelsl Linear Modelsl Bayesian Statistics: Theory and Applicationsl Survival Analysisl 招生量:100-130人成功案例:l A同学,内蒙古大学软件工程专业,GPA2.9,G312,T87,IT公司实习l B同学,南昌大学运筹学与控制论专业,GPA3.0,G304,T89,水实习一个总结:GWU可以做保底学校,每年发的录取比较多,保底效果还是挺明显的。但是GPA距离3.0太远的案例很少见。另外该项目对转专业申请者比较容忍,只要跨度别太大就可以。低端学校&案例的补充Auburnl A同学:广东外语外贸大学税务专业,GPA3.25,GRE316,T90l B同学:哈尔滨工业大学自动化专业,GPA3.0,GRE307,T95l C同学:上海财经大学信息与计算科学,GPA3.0,GRE1390,T98University of Missouril A同学:广东外语外贸大学税务专业,GPA3.25,GRE316,T90l B同学:首都经济贸易大学统计专业,GPA3.1, GRE310, T100, 一年工作经验l C同学:江西财经大学统计专业,GPA3.57,GRE304,T81SUNY-SBl A同学:上海师范大学统计专业,GPA3.44,G1100,T82l B同学:上海对外贸易学院统计专业,GPA3.63,G1170,T88l C同学:上海财经大学信息与计算科学,GPA3.0,GRE1390,T98l D同学:上海财经大学统计专业,GPA3.37,G1170,T100University of Nebraska—Lincolnl A同学:中国人民大学物理专业,GPA3.26,GRE1100,T87l B同学:江西财经大学统计专业,GPA3.57,GRE304,T81Loyola University Chicagol A同学:中国农业大学/美国科罗拉多大学丹佛分校经济专业,GPA3.3,GRE1100l B同学:哈尔滨工业大学软件工程专业,GPA3.2,G1100,T85,县统计局实习University of Utahl A同学:山东工商学院经济与统计专业,GPA3.2,G308,T82Western Michigan Universityl A同学:首都经济贸易大学统计专业,GPA2.8,G300,T83Washington State Universityl A同学:哈尔滨工业大学软件工程专业,GPA3.2,G1100,T85,县统计局实习University of Vermontl A同学:上海师范大学统计专业,GPA3.44,G1100,T82各申请条件的重要性分析l1. 学校&GPA:最重要。其中最为重要的先修课程为数学分析、线性代数、离散数学、常微分方程、偏微分方程、随机过程、概率论与数理统等。这些课程的成绩要尤为注重提升。l2. 标准化考试成绩:比较重要。GRE(Q)>TOEFLl3. 统计相关的项目、实习:比较重要l4. 数学建模竞赛&统计软件&编程能力:比较重要。C#、C++、JAVA、SPSS、SAS总结:GPA>GRE(Q)>实习>TOEFL=软件文书重要程度:一般写作难度:比较简单写作风格:学术、客观、严谨、简练、概括写作目标:通过全套文书的写作,向录取委员会展示一个数学功底扎实、统计方法牢固、实践经验丰富,并有对于某个应用领域浓厚兴趣的学生形象。l CV:最好一页,重点描述参与的研究项目或实习经历。语言客观、简练,动宾结构为主。l RL:3封。经典搭配“专业课老师+项目导师+实习领导”。其中项目导师可以用竞赛带队老师代替。推荐信在三类文书材料中的作用相对次要,美国老师的推荐信除外。l PS:2页之内。内容上主要写对统计学的兴趣由来及发展;对统计专业未来发展的看法;自己参与过的科研、比赛、实习;未来的学习计划和职业规划;为什么选择我们学校;对统计的哪个领域应用比较感兴趣以及为什么和该方向上的积累等。需要注意的是,写这些内容时杜绝泛泛而谈,要切合实际,越具体越好。