作者介绍@大师兄混迹数据江湖十余载。主要负责大数据商业变现和产品运营工作。学好统计学,让你成为高富帅,迎娶白富美,走上人生巅峰,不是不可能,但可能性只有0.00001%。从统计学的角度,这是小概率事件。但是学好统计学的现实好处多多,我就随便举几个例子给大家听听。学会看问题,懂得数字的意义。新闻报道上,各种各样的数字随处可见,如果你不想被各种数字蒙骗,最好学点统计学。学过统计的人,当看到这样的数字的时候,就会多问几个为什么,就能明白数字背后的真实含义了。用数据说话,让你的说服力爆表。现在职场上的人们,谁不要给领导汇报工作,或者团队之间讨论问题。当你汇报和讨论的时候,光说,“我觉得”,“我保证”,“根据我的经验”,这些个词太没有信服力了。必须说数据,摆事实。利用清晰的数据传达具有强有力说服的信息。体验一种与众不同的思维方式。很多人的思维方式,非黑即白。但世界上的很多事物并不是非黑即白。统计学的思维就是永远不肯定这个世界到底是什么样子的。统计学永远是讲概率的,就是可能性。这就是一种概率思维方式。懂因果,知报应。统计学常常研究两个因素之间的关系,叫做因果关系。例如,你的学历对你收入的影响。统计学家可能会说,学历每提升一个层次,年收入将提高1.2万元。所以不要相信读书无用论,你要相信概率。如果你相信自己能成为比尔盖茨,那读书对你确实没意义,同样,这只是小概率事件,基本不会发生在你身上。既然统计学这么厉害,这么牛逼,这么重要。作为统计学专业的我,我就忍不住要给大家好好梳理下统计学的知识框架,并且带着大家一点一点的学习下统计学和概率论的知识。在今后的关于统计学的文章中,我努力实现以下几个小目标。目标一:构建出统计学需要掌握的知识框架,让读者对这个知识体系一览无余。目标二:尽量阐述统计学每个知识在数据分析工作中的使用场景以及边界条件。目标三:为读者解答数据分析中碰到的各种统计学问题。今天这篇文章,主要还是带大家从宏观的层面理解下统计学。概率与概率分布稍微关注过统计学的人,可能会这么一个疑问。为什么大学里会有这样两门课,《概率论与数理统计》,《统计学》,它们有什么区别?我的理解,《概率论与数理统计》更专业一些,偏理工科,会有大量公式的推导,知其然,知其所以然;而统计学这本书更基础,侧重于概念现象的解释,一般会直接给出结论,而不要求掌握结论的数理推导过程,文理科皆可用。但不管是哪门课程,前期都是先讲概率和概率分布。概率论是统计学的基础,而随机事件的概率是概率论研究的基本内容。统计学不研究统计,它研究的是不确定性。我们的世界是一个充满不确定性的环境,整个世界并非严格按照某个制定好的路线运行的。多数事物之间也并非有因必有果,万物之间充满了不可控的随机事件,我们不会因为今天努力了明天就一定会成功。不确定性事件唯一的规律就是概率,独立随机事件我们没办法预测或控制它在某个时刻一定会发生,但却可以用概率来描述它发生的可能性。以概率论作为理论基础,为我们提供了认识不确定世界的方法。这一章节,需要大家掌握几个核心概念:随机事件概率概率分布数字特征用图表演示数据今年疫情期间,待在家里除了陪伴家人以外,每天讨论最多、关注最高的事件莫过于疫情的新动态,这些动态的展现形式大家有没有注意到,各种专业、好看、直观的图表和数据图,让数据呈现得一目了然。是的,工作中,一名数据分析师拿到了数据后,第一步要做的是数据初步探索,这也叫数据的预处理,这个时候,更多的就是利用各种图表探索数据。图表的好处是它可以很直观的看到数据的分布以及趋势,更有效的观察数据。这一章节,需要大家掌握几个核心概念:数据类型统计表统计图数据的概括性度量利用上面所讲的图表展示,我们可以对数据分布的形状和特征有一个大致的了解,但要全面把握数据分布就要反映数据分布特征的代表值。通常包含分布的集中趋势、分布的离散程度、分布的形状。数据分析中,最常见的场景,就是你手上拿到一组,一批或者一坨数据。不懂统计学的人,可能会不知所措,或者说,你不做些加工和处理,你不知道这些数据有啥用。这个时候,就需要通过这些概括性的度量指标,来帮我们从宏观上把握数据中的初步信息。这一章节,需要大家掌握几个核心概念:众数/平均数方差/标准差偏度/峰度统计量及其抽样分布抽样好懂,抽样分布不好懂。抽样,就是从研究的总体中抽取一部分个体作为我们真正的研究对象,可以简单把样本理解为总体的一个子集,通过样本的结果来推测总体情况。比如我们想知道中国成年男性的平均身高,理论上最准确的办法是调查中国所有成年男性的身高,然后计算平均数。很显然,没人这样做。实际的做法总是抽取一部分人,然后计算这部分人的平均身高,由这个平均身高来大致估计总体的平均身高。理解了抽样,再来理解抽样分布。抽样分布说的是对谁的分布?答案是样本统计量,比如样本均数或者样本比例。以样本均数为例,一般说样本均数的抽样分布如何如何,这里,样本均数被当成了一个随机变量来看待。我们最希望大家记住的要点:样本均数是一个随机变量,但对于初学者,这确实是比较反直觉的。为何样本均数可以被当做一个随机变量?因为样本均数是依赖样本计算得出的:每抽取一组样本都可以计算出一个样本均数,而且这些样本均数或多或少都会有些差异。由此,样本均数会随着抽样的不同而随机变动。只是现实生活中我们一般只抽取一组样本,计算一个样本均数,因此,会觉得样本均数不变。这一章节,需要大家掌握几个核心概念:统计量抽样抽样分布参数估计当初大学里,学数理统计的时候,到了这块就感觉越来越难了,学习的过程中可以说就是囫囵吞枣,似懂非懂。但现在,经过漫长的实践过程,对统计学的知识有了更深一步的理解。统计推断,说白了,就两件事。第一个,参数估计。第二个,各类假设检验。学习到这里,假如你是做数据挖掘,机器学习的,你就会强烈意识到,数据挖掘和统计学之间是存在千丝万缕的联系。参数估计,顾名思义就是对参数进行估计,那什么是参数呢?就是你假设分布的参数就是说你认为或者知道某个随机过程服从什么分布,但是不确定他的参数是什么,那怎么办?你采样、采很多样本(实际值),通过这些样本的值去估计分布的参数就是参数估计。这一章节,需要大家掌握几个核心概念:参数点估计区间估计假设检验上面讲到,统计推断就需要明白两件事,一件是参数估计,另外一件是假设检验。假设检验是什么?说白了,假设检验就是先对总体猜一个参数值,然后利用样本的数据检验这个参数值准不准。互联网生产实践中的ABTEST方法,就经常会应用到假设检验的思想。举一个简单的例子:学而思网校App进行了改版迭代,现在有以下两个版本版本1:首页为一屏课程列表 版本2:首页为信息流如果我们想区分两个版本,哪个版本用户更喜欢,转化率会更高。我们就需要对总体(全部用户)进行评估,但是并不是全部存量用户都会访问App,并且每天还会新增很多用户,所以我们无法对总体(全部用户)进行评估,我们只能从总体的用户中随机抽取样本(访问App)的用户进行分析,用样本数据表现情况来充当总体数据表现情况,以此来评估哪个版本转化率更高。这一章节,需要大家掌握几个核心概念:假设检验P值回归分析大学里学习统计学的时候,最喜欢学回归分析,也是学的最明白的一部分。因为它的易懂性,也因为它的实用性。但随着自己数据分析经验的积累,对回归分析的理解也越来越深,它不是简单的回归模型求解那么简单,它更是一种日常工作中解决问题的思路和方法论。数据挖掘中使用的各种高深的模型,任何模型都可理解成回归模型,包含因变量Y和自变量X,求解参数。在我看来,回归分析由两部分组成:业务分析和技术分析。其中,业务分析属于“道”的层面,而技术分析属于“术”的层面。从“道”的层面来看,回归分析是业务分析,其分析的不是数据,而是业务,是业务中的不确定性。通过业务分析,获得对业务不确定性的理解,进而将抽象的不确定性业务问题转换成一个具体的数据可分析问题。什么是数据可分析问题?一个业务问题,只要有清晰定义的因变量Y(不管是看得见的,还是看不见的)和清晰定义的自变量X,这就是一个数据可分析问题。一旦把业务问题规范成一个具体的数据可分析问题(有清晰定义的Y和X),那么接下来就是技术分析,属于回归分析“术”的层面。在这个层面,人们关心对于一个既定的Y和X,要研究其中的不确定性,应该选择什么样的模型设定,线性模型还是非线性模型,一元模型还是多元模型,简单的决策树还是随机森林,普通的神经网络还是深度学习。模型设定确定下来后,还需思考应该用什么方法估计,如何调优,等等。以上是对回归分析的一种广义上的理解,狭义上理解回归分析,需要理解以下几个核心概念:相关系数回归分析最小二乘法显著性检验多重共线性拟合优度当然,统计学的知识还包含很多,比如方差分析,时间序列分析,统计指数等等,这些知识在特定的应用场合,也有着广泛的应用,只是相比以上的知识点,应用范围更小点。一个数据人的自留地是一个助力数据人成长的大家庭,帮助对数据感兴趣的伙伴们明确学习方向、精准提升技能。
(一)“统计”一词的由来“统计”一词,英语为statistics,用作复数名词时,意思是统计资料,作单数名词时,指的是统计学。一般来说,统计这个词包括三个含义:统计工作、统计资料和统计学。这三者之间存在着密切的联系,统计资料是统计工作的成果,统计学来源于统计工作。原始的统计工作即人们收集数据的原始形态已经有几千年的历史,而它作为一门科学,还是从17世纪开始的。英语中统计学家和统计员是同一个(statistician),但统计学并不是直接产生于统计工作的经验总结。每一门科学都有其建立、发展和客观条件,统计科学则是统计工作经验、社会经济理论、计量经济方法融合、提炼、发展而来的一种边缘性学科。 (二)近代统计学 近代统计学指的是18世纪末到19世纪末的描述统计学,其发展过程与概率论的广泛研究和应用密切相关。目前在统计分析中经常使用的一些基本方法和术语都始于这一个时期,比如:最小平方法、正态分布曲线、误差计算等等。 在近代统计发展的一百年中,也形成了许多学派,其中以数理统计学派和社会统计学派最为著名。数理统计学派的原创始人是比利时的A?凯特靳,其最大的贡献就是将法国的古典概率引入统计学,用纯数学的方法对社会现象进行研究;社会统计学派的首倡者是德国的K?克尼斯,他认为统计研究的对象是社会现象,研究方法为大量观察法。在近代统计学的发展过程中,这两学派的矛盾是比较大的。【来源:国民经济综合统计处】声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 邮箱地址:newmedia@xxcb.cn
一、绪论统计是一种关于人们认识客观世界总体数量变动关系及其规律的活动的总称,是人们认识客观世界的有力工具之一。统计在其诞生之初是作为一种社会实践活动,它为一国的统治者了解国家情况和管理国家提供重要的数量依据。但是随着社会经济和科技的发展,再加上由不断趋于完善和系统化的统计实践活动所孕育的统计学的自身进步,使得统计从最初的社会实践活动逐渐成为一种由科学理论所指导,帮助某一学科了解其领域内数量的变动关系及规律,从而更好地开展研究活动的方法论科学。人们通过统计设计(根据所要研究问题的性质,在有关科学理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准,同时提出收集、整理和分析数据的方案和工作进度等)、收集数据(即收集统计数据,一般通过实验法和调查法两种方法收集)、整理分析(对原始数据进行整理、加工、分析,用描述统计或推断统计两种方法)和开发应用这四个环节来开展统计研究,从而使收集的原始数据能更好地服务于所要开展的研究活动。现代统计学可以分为两大类:一类是以抽象的数量为研究对象,研究一般的收集数据、整理数据和分析数据方法的理论统计学(将研究对象一般化、抽象化,以数学中的概率论为基础,从纯理论的角度,对统计方法加以论证);另一类是以各个不同领域的具体数量为研究对象的应用统计学(与各不同领域的实质性学科有着非常密切的联系,是有具体对象的方法论)。将统计这一实践活动上升到理论,并加以总结和概括,就构成了统计学。从整体到局部,再从局部到整体,是我认为的学习一门学科较为系统性的路径。关于统计学的基本概念,它是由总体与总体单位、样本、标志、统计指标与指标体系、统计数据构成。其中:1) 统计总体是指根据一定目的确定的所要研究的事物的全体(它应该由足够数量的同质性单位构成);总体单位就是组成总体的各个个体,根据总体所包含的单位数量,分为有限总体和无限总体。2) 样本是指总体的部分单位所组成的集合,样本所包含的总体单位数称为样本容量。3) 标志是指总体各单位普遍具有的属性或特征。它分为品质标志(表明单位属性方面的特征,它的表现只能用文字或语言来描述,如性别)和数量标志(表明单位数量方面的特征,可以用数值来表现,如收入)、不变标志和变异标志。4) 统计指标是反映统计总体数量特征的概念(指标的概念)和数值(指标的取值),它分为数量指标(用绝对数表示)和质量指标(用相对数或平均数表示)。指标体系是指由一系列相互联系的统计指标所组成的有机整体,用以反映所研究现象各方面相互依存、相互制约的关系。5)变量是统计数据的主体,它被定义为说明现象的某一数量特征的概念,变量的具体取值被称为变量值;根据变量值连续出现与否,分为连续型变量(变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以任取任意实数值)和离散型变量(变量的数字只能用计数的方法取得,其取值是整数值,可以一一列举);定类尺度、定序尺度、定距尺度、定比尺度共同构成了统计数据的计量尺度,它们由低到高、由粗略到精确分层。
一、医学统计学的主要内容:1、统计设计:统计设计包括调查设计和实验设计。统计设计是保证统计描述和推断正确的基础。2、统计描述:对原始数据进行归纳整理,用相应的统计指标,如率、均数等,表示出研究对象最鲜明的数量特征,必要时选择统计表或统计图。3、统计推断:在统计描述的基础上,对统计指标的差距和关联性进行分析和推断。二、医学统计资料的类型:1、计量资料:亦称数值变量,为定量测量的结果,通常用专用仪器测量,并有计量单位,如身高(cm)、体重(kg)等。2、计数资料:计数资料是定性观察的结果。有二分类多分类两种情况。3、等级资料:介于定量测量和定性观察之间的半定性观察结果,通常有两个以上等级,如阴性、阳性、强阳性、治愈、好转、有效、无效等。等级资料虽然也是多分类资料,但各个类别间还存在大小或程度上的差别。三、医学统计工作的基本步骤:1、研究设计:(1)调查设计:不加干预。(2)实验设计:加干预,分动物实验和临床试验。2、收集资料:获得准确可靠的原始数据。3、整理资料:(1)原始数据的检查与核对:①统计数据的常规检查。②数据的取值范围检查。③数据间的逻辑关系检错。(2)数据的分组设计和归纳汇总:①质量分组:比如按性别、病情轻重、治愈、好转和无效等。②数量分组:比如按年龄、身高、体重等。4、分析资料:阐明事物的内在联系和规律。四、统计学的几个重要概念:1、同质与变异:①同质:研究对象具有相同的背景、条件、属性称为同质。②变异:同一性质的事物,其个体观察值(变量值)之间的差异。③举例:调查1998年所有20岁健康男大学生的身高,它的同质基础是同一地区、同一年份、同为20岁健康男大学生;这些同学的身高各有差异,就是变异。2、总体与样本:①总体是同质观察单位的全体。②样本是从总体中随机抽取的有代表性的一部分观察单位。3、参数与统计量:①参数指总体指标,统计量指样本指标。②参数是未知的,需要用统计量去估计。4、误差:①系统误差应该通过周密的研究设计和调查(或测量)过程中的严格质量控制措施予以解决。②随机测量误差及抽样误差都属于随机误差,随机测量误差是不可避免的,但应尽量的小。③抽样误差是抽样机遇所致,是客观存在,不可避免的。这种误差可以通过统计方法估计,也可通过增大样本含量使其减小。5、概率与频率:概率对总体而言,频率是对样本而言。五、统计表和统计图:1、统计表:(1)统计表的结构包括:①标题、标目、线条、数字等部分,有些统计表还有备注。②标目包括横标目和纵标目。横标目说明横行数字的属性,位于表格的左侧;纵标目说明每一列数字的属性,位于表格的第一横行。(2)制表原则和要求:①制表原则:重点突出,简单明了。一张表只有一个中心内容,明确显示需要说明的问题。主谓分明,层次清楚。合理安排横纵标目,使人一目了然。②制表的基本要求:A:标题:概括说明表的内容,位于表的上方,内容简洁扼要。B:标目:用于指明表内数字含义,横标目为主语,表示被研究事物;纵标目为谓语,表示被研究事物的各项统计指标。C:线条:除必须的顶线、底线、标目线以外,应尽量减少其他不必要的线条,不使用竖线、斜线。D:数字:一律使用阿拉伯数字,应准确无误;同一指标的数字的小数位应一致,位次对齐。2、统计图:(1)制图的基本要求:纵横轴的比例以5:7为宜。(2)常用的统计图的类型:①直方图:主要用于表示连续变量的频数分布情况。图中直条连续排布,各直条宽度代表各组段组距,直条高度代表相应组段频数或频率。②折线图:用于描述一个变量随另一个变量的变化而变化的趋势和幅度,通常是变量随时间的变化情况。③误差条图:常用于比较多组连续变量的均值和标准差,直条的高度表示均值,直条顶端用“T”形图标或“工”形图标表示标准差,图标中竖线长度表示标准差的大小。④箱式图:当连续变量为偏态分布时,用误差条图展示多组间比较不够恰当,可使用箱式图比较多组间的平均水平和变异程度。⑤直条图:常用于比较统计指标数值大小和对比关系。⑥圆图:用于表示构成比,圆的总面积为100%。⑦百分条图:当要同时比较多组构成比时,采用百分条图比圆图更为直观便捷。六、统计推断:1、统计推断是用样本信息推断总体特征,包括总体参数的估计和假设检验,是统计学的核心内容。2、数值变量资料的统计推断主要包括总体均数估计、t检验、方差分析以及数值变量资料的秩和检验。3、分类变量资料的统计推断包括总体率的估计以及分类变量的z检验、X2检验和秩和检验。
浅谈统计学在生活中的应用统计学并不是一门独立存在的学科,它是以数学知识和数理统计作为基础,将数理统计方法和其他学科专业知识交叉融合形成的具有极强推断性的一种分析方法。现阶段,随着科学技术的快速发展,为了加强对自然社会各个领域现象的判断和整理能力,将统计学应用在生活各个方面已经成为现阶段的数理统计的一种便捷方法。 一、统计学的概念 统计学指的是调研人员通过一些列的手段对整理出来的数据信息进行整理分析,从而推断出调研对象本质,甚至可以对未来的类似事情进行预判的一门综合性学科。在进行统计学整体分析的过程中需要用到大量的数学知识以及其他相关学科的专业知识,统计学由于其自身独特的性质,在社会科学和自然科学的各个领域几乎都可以使用。 二、统计学在生活中的应用分析 (一)统计学在经济学中的重要应用 运用统计学对生活中的数据信息进行整理分析,首先要学习统计学的基础知识以及数据统计个分析等学科,这些基础知识和方法都是在开展统计学应用活动之前调研人员所必须掌握的。统计学课程的学习作为经济学学科当中的重要分支,在经济学课程中经常被应用,例如,经济学的计量统计就需要根据统计学在金融里面的重要意义和地位作为基础,将金融知识和统计学知识相结合,将金融计量和时间的序列进行结合,对收集到的金融数据进行整理分析,最后得出金融计量和时间序列的一定关系。 统计学在金融经济学中有着十分重要的工具性作用,主要包括两个方面,分别是:在思想上而言,统计学是对数据统计分析结果进行研究,最后得出研究对象的判断结果,为了保证研究结果的准确可靠性,统计学在进行数据整理分析过程中必须是带着严谨的科学态度,这种严谨的科学态度对于经济学的相关理论分析具有十分重要的指导地位,这是由于研究人员在对金融量进行数学分析的过程中,为了保证金融数学分析结果的准确可靠性就必须保证金融量数据收集分析等预处理过程是科学合理的;其本收集整理次,统计学是经济学进行科学试验研究最优化的选择,经济试验研究活动的多样性以及研究对象之间错综复杂的关系导致经济学的试验研究活动受到诸多限制,运用统计学进行经济学试验研究活动,使得经济学实验研究的对象变得简洁明了,降低试验研究的成本支出。从统计学在经济学中的应用我们可以看出,经济学当中的统计学应用主要是运用了统计学当中经济必然性的思想,使得经济学当中的统计结论不具备复杂的思想成本。 (二)统计学在医学中的重要应用 统计学在医学中应用的主要原因就是生物医学中存在的不确定性和变异性。生物医学主要的研究目标就是与人体健康相关的不确定因素,也就是通常所说的医学变异现象,变异现象在生物体当中是普遍存在的,例如,对于外在条件基本相同的两个病人,在相同的条件下进行治疗时,却有可能出现有的病人被治愈,有的病人治疗效果不明显,甚至还会出现死亡的现象。造成这些外在条件相同的生命体却出现不同程度治愈的主要原因就是生物医学中存在的不确定性或者是人体中存在的错综复杂的随机因素,客观差异存在的原因是因为某种偶然性的潜在的揭露必然性的发现。 在医学临床统计中发现,对于同一种病因的客观性规律进行调查,对于健康人的共同作用的交织与疗效的考查的病人很少。在医学当中运用统计学最主要的就是通过观察不同疗效病人的医疗诊断效果,将实际的医学诊断治疗效果与医学理论和假设进行验证,运用概率论以及数学方法对对比结果进行分析、判断,运用电子计算机等相关软件设备对研究对象的指标进行记录,并绘制相应的图表等,通过综合运用多种数理统计方法,得出与研究对象相关的研究结果。将统计学应用到医学当中,可以促进统计方法和多变量分析法在医学试验研究中的应用,对未知病因所造成的医疗诊断事故进行分析,可以促进医疗诊治手段的不断创新發展。 (三)统计学在体育比赛中竞技指标的应用。 统计学在体育比赛中的应用主要是用统计的职业联赛的数字反应比赛队伍能否成为世界顶级,这是因为在体育比赛中应用统计学可以对比赛中的胜率进行分析,主要是将每个队员在每个赛季比赛的分数和常规赛场上的分数进行统计,通过一系列的数学计算分析,制定出每个队员得分平均值和标准差之间的正态分布图,通过正态分布图的稳定性来判断队员的技术稳定性。以众所周的NBA篮球比赛为例,NBA比赛中由于明星球员众多,在运用统计学进行数据整体分析时,需要依据本质上的规律进行数据统计,而不是随意的选择数据进行统计,例如在进行篮球比赛发球这一项双方队员的进攻和防守的概率时,在进行指标选择时就涉及到随机事件的发生概率,因此,可以运用统计学统计球员在每一场比赛上的均得分,通过这些数据指标的正态分布图来确定球员的技术稳定性。 三、结束语 在日常生活中应用统计学对数据进行管理分析,可以极大提高生产生活中对研究对象的管理效率,使得研究对象变得明确,降低管理成本。在实际的生产生活中应用统计学时,调研人员需要通过多次的试验和随机概率对比来确定事件发生的概率,通过定量定性的数理统计分析工作,充分发挥统计学对生产生活的促进作用。
从统计学角度讲,医学研究的基本原则主要包括三个,即对照、随机化和重复。之所以要遵循这些基本原则,其目的主要是:从处理因素这个要素的角度讲,就是要保障尽量控制混杂因素;从研究对象这个要素的角度讲,就是要保障其同质性、代表性和均衡性;从实验效应这个要素的角度讲,就是要保障观察结果的精度。下面,医刊汇编译就这三个基本原则做简要说明。一、对照原则。在设置接受处理因素的实验组时,应该同时设置没有处理因素的对照组,因此,对照原则主要是从处理因素的角度来控制混杂因素的。设立对照应满足均衡性,它是指在设立对照时除给予的处理因素不同外,对照组和实验组的其它一切因素应尽可能一致。设立对照时,应把研究对象随机地分入对照组和实验组中进行平行试验。为避免倾向性偏倚,一般应采用盲法。设立对照的方式有安慰剂对照、空白对照、自身对照、标准对照(也称阳性对照)等。此外,各组的例数应尽可能相等。二、随机化原则。随机化是指采用随机的方式,使得每个研究对象都有同等的机会被抽取或分到不同的实验组和对照组中,它包括随机化抽样和随机化分组。因此,随机化原则主要是从研究对象的角度来控制混杂因素的。常用的随机化抽样方法有简单随机抽样、系统抽样、分层抽样、整群抽样等。常用的随机化分组方法主要有简单随机化、分层随机化及区组随机化等。随机化分组应在实施处理因素的干预前利用随机数字表或由计算机采用统计专业软件产生随机数来完成。临床试验研究中,由于研究的对象是陆续进入试验观察的,往往不能采用随机抽样的方法获取研究样本,只能根据事先确定的样本量利用“三标准”来获得,但无论是否是随机抽样,获得研究样本后分组原则上应是随机的。三、重复原则。重复原则是指在相同试验条件下进行多次研究或观察,以提高试验的可靠性和科学性。包括整个试验的重复、多个试验对象的重复、同一个试验对象的重复观测。样本量充分反映了重复原则,试验对象的重复观察次数越多,由样本计算出的频率或均数等统计量就越接近总体参数。但样本含量过大或试验次数过多,不仅会增加控制试验条件的难度,且会造成不必要的浪费。因此,为了获得科学、可靠的结果而又节约研究的成本,在设计中应从统计学的角度进行正确的样本量估计。
一、统计学的理论收获通过本学期在八教315线下授课的方式,我们深入学习了统计学这门课程,并认识到许多统计学的理论知识应用于现实生活中的案例,且具有重要意义;所以我们不仅仅要学会掌握课程内容,还学会运用其所学的知识与数据分析方法应用于实践。学习收获的总体内容有:1.总论:学习了统计学的定义是收集、整理、分析、解释数据并从数据中得出结论的学科;它的研究对象在统计学界观点不一,具有数量性、总体性、具体性、社会性、广泛性的特点。统计研究方法有大量观察法、统计分组法、综合指标法、统计模型与推断法;统计中的基本概念含有:总体、样本、参数、统计量、标志、指标。2.数据的收集:了解到了二手数据的来源渠道和评估、以及原始数据的直接来源,掌握到了数据的收集方法,可以通过线上与线下相结合的搜集方式,如:访问、调查问卷、电话调查等。老师重点讲解了统计调查的组织方式,分别有普查、抽样调查、统计报表等调查方式。其中普查是为某一特定目的而专门组织的非经常性全面调查,适用范围比较广,例如:我国进行的人口普查就是运用此调查方式;抽样调查具有节约、及时、准确、机动性的优势。3.统计整理,将统计调查所采集到的原始数据进行科学分类和汇总,可以反映总体的综合资料的工作过程,它的内容分别有:①统计调查资料的预处理,包括数据审核、筛选、排序和分类汇总以及数据透视表。②统计分组和分布数列汇总,可以利用Excel作频数分布表来分类数据整理,具有单变量和组距分组的分组方法。③统计结果的显示;用统计图表示(条形图、柱形图、折线图等等)。④统计资料的保存。4.平均分析:含概的内容有:(1)统计指标:有数量性、综合性、质的规定性特点;(2)总规模度量的总量指标;(3)比较度量的相对指标,也称为相对数,计算方法有计划完成相对数、结构相对数、比例相对数、比较和动态以及强度相对指数。(4)集中趋势的度量,包含有位置、数值平均数,以及各种平均数之间的关系;有众数和中位数、四分位数以及它们的分类。(5)平均数:按学习的内容分为:①算术平均数(均值),具有各变量值与均值的离差之和等于零以及离差平方和最小的性质;②调和平均数;③几何平均数;④众数、中位数、均值的关系。(6)离散程度的度量,包括有异众比率、四分位差、极差和平均差、方差及标准差,还有相对未知的测量:标准分数,以及相对离散程度:离散系数。(7)偏态与峰态的测度:都是运用偏态与峰态的图形来进行分析,把相应的数值放入相应的范围内,然后根据定义与相关性质来分析其数值所在的范围涵盖的意义。5.抽样与参数估计:抽样调查是一种非全面调查,是由部分推断总体的过程,如可以应用它进行社会调查和工业生产过程的质量控制等等;方法有重复与不重复抽样,通过计算抽样误差的范围来推测抽样估计的可靠程度。6.相关与回归分析:相关分析是通过采用相关表与相关图以及相关系数来反映相关关系的密切程度的统计分析指标;回归分析是利用直线回归方程的拟合与检测来确定变量之间的关系,进行估计和预测,也可以用电脑Excel进行一元回归和多元回归分析。7.假设检验:是利用样本对总体进行某种推断的过程,也称为显著性检验,检验方法有:原假设和备择假设、显著性水平、双边和单边检验。8.时间序列分析:分为绝对、相对、平均数时间序列,是由数值两部分组成,用来描述经济发展状况,并以此对未来发展情况进行预测;可以通过几何法和方程法来计算其发展水平与发展速度和它们的平均值来进行推测,然后利用长期趋势测定和季节变动测定的方法进行预测等等。以上便是我们本学期学习的总体内容,经过老师的仔细讲解,让我们能通俗易懂的掌握,并学以致用。二、统计分析方法的实际运用(一)时间序列分析法应用1.长期趋势测定的移动平均法分析长期趋势是指选取一段相当长的时间内的数据,发展过程表现为不断增长或不断下降的总趋势,选择适当的移动时距,然后运用其数据来进行对未来下一年的数据进行预测,通过移动平均法计算 。如借此方法来预测2020年山东省居民消费价格指数,因为选取的数据越长预测出来的结果就越接近实际,所以先线上查阅2000年至2019年的居民消费价格指数数据,如下图:对上述数据分别取移动间隔K=3和K=5,用Excel计算各期的居民消费价格指数的预测值,且算出预测误差以及预测平方,并将原序列和预测后的序列绘制成图形进行对比,如下图所示:利用简单移动平均制作出山东省居民消费价格指数移动平均趋势图:由以上图表得知当K=3和K=5时,预测2020年山东省居民消费价格指数分别为102.36%、102.116%,它们的误差均方为2.36、2.3578784。根据移动平均法的性质可知:平均误差:102.36>102.116,且误差均方2.36>2.3578784,因此,推测出5年移动平均预测值比3年移动平均预测值更稳定,所以选择5年移动平均误差推测出来的数值102.116作为山东省2020年居民消费价格指数的预测值。(二)统计指数的加权综合指数的应用统计指数是指用于测定多个项目在不同场合下综合变动的一种相对数,具有相对性、综合性、平均性的性质,按内容分类有数量指数和质量指数,而且也可以把其运用到实践中,如用其指数来分析中国粮油零售市场2018年和2019年大米、面粉、花生油三种商品的零售价格和销售量,从线上查阅资料如下图所示:由于拉氏指数在实际生活中的运用中数量指数比较常用,而帕氏指数的价格指数便被常用于实际分析,所以我通过拉氏指数来计算数量,帕氏指数来计算价格进行对比分析。如下:(帕氏)价格指数:结论:通过计算的数据对比得出,与2018年相比,2019年三种商品的零售价格平均上涨了21%。由于价格上涨,使销售额增加:(拉氏)数量指数:结论:通过计算的数据对比得出,与2018年相比,2019年三种商品的销售量平均上涨了11.4%。由于销售量增加,使销售额增长为:三、Excel在统计中的应用与实际用处本学期所学的统计学课程内容,我认为书本倒数第二章节:‘Excel在统计中的应用’对我在未来想从事的职业会有很大的用处。因为利用Excel可以把输入在电脑里的数据快捷的进行整理与分析,以及运用统计图或模型的方式来表示,便于人们更简单、直观的通过观察获得所需的数据以及借此来进行快速化分析,得出结果,节省了不必要浪费的时间;而且它还可以通过电脑计算器进行迅速计算和解决一些人们无法通过口算得出结果的数学问题等等;统计无处不在,如:若是我以后想在教师行业发展,我就可以运用Excel的数据分析工具来对学生的各科学习成绩以及所有学生的总成绩进行快速汇总,以及对各科的平均成绩的计算,还有在教学方式中也可以采用其制作相应的统计模型与图表来进行教学传授,让学生能直观、通过图形分析通俗易懂的对思维性知识的掌握与吸收,进而还可以提升学生大脑思维等等,促使高效率的完成教学任务;或者是我未来从事的是其它的行业职业,也可以应用Excel对该行业职业所需要整理的数据进行记录与汇总以及对某城市未来发展的预测与分析,如:运用时间序列分析法对某省的GDP以及CPI进行预测,或对月度、季度、年度报表可以转换成统计图的模式来显示,更便于工作人员分析,推测下一季度、下一年的发展状况,或对某一全体职工的工资表进行处理等等,避免造成失误。统计学广泛的应用于实际中,如描述本国GDP的变化以及对未来GDP的趋势推测、股票市场的股票指数图分析股市波动以及用数量图形来统计APP的用户数量等,都是运用Excel的数据分析工具制作统计图形来进行剖析的;所以通透并学会如何行使Excel在统计中的应用,可以让我们在以后的职业生涯中高效的提升工作效率,快速的对某一事物进行分析,而且也可以运用其来进行解析与预测以后自己想在某一地区发展的经济状况等。所以学好统计学,把理论与实践相结合的运用,对于我们来说尤为重要。
作为一名研究生导师,我来探讨一下这个问题。首先,在当前的大数据时代背景下,对于应用统计学专业的学生来说,可以重点考虑一下大数据方向,原因有以下三点:第一:统计学是大数据的重要技术组成部分。大数据的技术基础包括三大方面,分别是数学、统计学和计算机,所以统计学专业考研大数据方向是比较适合的选择之一。应用统计学本身与大数据的联系也比较紧密,目前大数据场景分析就会采用大量的应用统计学知识。第二:大数据发展前景广阔。当前正处在大数据时代背景下,在大数据技术的带动下,物联网、云计算和人工智能等技术也取得了一定的发展,所以大数据技术不仅自身开辟了新的价值领域,同时也是推动科技发展的重要动力之一,所以未来大数据领域具有广阔的发展前景。第三:人才缺口大。虽然大数据技术经过了多年的发展,目前在技术体系上已经趋于成熟,但是大数据行业目前的人才缺口依然比较大,而且主要集中在研发领域。在产业互联网即将落地到广大传统行业的当前,大数据研发型人才将会有更多的行业需求。由于目前人才缺口比较大,所以薪资待遇也比较高,从近些年来大数据专业研究生的就业情况来看,整体薪资待遇还是比较可观的。大数据专业虽然需要学习的知识量比较大,但是由于大数据技术体系已经比较成熟了,所以研发过程也会相对比较系统,未来可以从事的岗位也有更多的选择,比如既可以从事数据分析、挖掘等岗位,也可以从事大数据平台研发等岗位。我从事互联网行业多年,目前也在带计算机专业的研究生,主要的研究方向集中在大数据和人工智能领域,我会陆续写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信一定会有所收获。如果有互联网、大数据、人工智能等方面的问题,或者是考研方面的问题,都可以在评论区留言!
编辑导语:不论在什么岗位,都要懂得本岗位的基础知识,打牢基础后面才能稳步发展;数据分析也是如此,数据分析必须要掌握统计学的基础知识;本文是作者分享的关于统计学入门基础的知识,我们一起来学习一下吧。要做好数据分析,除了自身技术硬以及数据思维灵活外,还得学会必备的统计学基础知识!因此,统计学是数据分析必须掌握的基础知识,即通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域,而在数据量极大的互联网领域也不例外;因此扎实的统计学基础是一个优秀的数据人必备的技能。但是,统计学的知识包括了图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等知识;对于具体的知识点,本文就不一一介绍了,感兴趣的同学请参考《深入浅出统计学》、《统计学:从数据到结论》等等专业书籍。统计学分为描述性统计学和推断性统计学。一、描述性统计定义:使用特定的数字或图表来体现数据的集中程度和离散程度。1. 集中趋势集中趋势集中趋势是指一组数据所趋向的中心数值,用到的指标有:算数均数、几何均数、中位数。算数均数:即为均数,用以反映一组呈对称分布的变量值在数量上的平均水平。几何均数:常用以反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。中位数:适用于偏态分布资料和一端或两端无确切的数值的资料,是第50百分位数。百分位数:为一界值,用以确定医学参考值范围。2. 离散趋势离散趋势是反映数据的变异程度,常用指标有极差、四分位间距、方差与标准差、变异系数。极差:为一组数据的最大值和最小值之差,但极差不能反映所有数据的变异大小,且极易受样本含量的影响。常用以描述偏态分布。四分位数间距:它是由第3四分位数与第1四分位数相减得到,常和中位数一起描述偏态分布资料的分布。方差与标准差:反映一组数据的平均离散水平,消除了样本含量的影响,常和均数一起用来描述一组数据中的离散和集中趋势。变异系数:也称作异常值,多用于观察指标单位不同时,可消除因单位不同而不能进行比较的困难。例如箱线图就可以很好反映其中部分重点统计值:3. 抽样方法和中心极限定理抽样方法:我们在做产品检验的时候,不可能把所有的产品都打开检验一遍看是否合格,我们只能从全部的产品中抽取部分样本进行检验,依据样本的质量估算整体的产品质量,这个就是抽样,抽样的定义是为了检验整体从整体中抽离部分样本进行检测,以样本的检测结果进行整体质量的估算的方法。抽样有多种方法,针对不同的目的和场景,需要运用不同的方法进行检测,常见的抽样方法有:1)概率抽样简单随机抽样;分层抽样;整群抽样(先将总体中若干个单位合并为组,这样的组称为群,再直接对群进行抽样);系统抽样(将总体中所有单位按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后再按事先指定好的规则确定其他样本单位);阶段抽样(先抽群,然后在群内进行二阶段抽样)。2)非概率抽样方便抽样(依据方便原则自行确定);判断抽样(依据专业知识进行判断);自愿样本(调查者自愿参加);滚雪球样本(类似树结构);配额样本(类似分层抽样);3)两者抽样方法之间的比较:非概率抽样适合探索性的研究,为更深入的数据分析做准备,特点是操作简便、时效快、成本低;而且对于抽样中的统计专业技术要求不是很高;概率抽样的技术含量更高,调查成本更高,统计学专业知识要求更高,适合调查目的为研究对象总体,得到总体参数的置信区间。4)中心极限定理:若给定样本量的所有样本来自任意整体,则样本均值的抽样分布近似服从正态分布,且样本量越大,近似性越强。以30为界限,当样本量大于30的时候符合中心极限定理,样本服从正态分布;当样本量小于30的时候,总体近似正态分布时,此时样本服从t分布。样本的分布形态决定了我们在假设检验中采用什么方法去检验它。二、推断性统计定义:根据样本数据推断总体的数据特征。1. 基本步骤产品质检的时候用的几乎都是抽样方法的推断性统计,推断性的过程就是一种假设检验,在做推断性统计的时候我们需要明确几点:明确后可以对应我们假设检验的几个步骤了:提出原假设(H0)和备选假设(H1),确定显著性水平(原假设为正确时,人们把它拒绝了的概率);选择检验方法,确定检验统计量;确定P值,作出统计推理;假设对于某一个器件,国家标准要求:平均值要低于20。某公司制造出10个器件,相关数值如下:15.6、16.2、22.5、20.5、16.4、19.4、16.6、17.9、12.7、13.9。运用假设检验判断该公司器件是否符合国家标准:1)设假设:2)总体为正态分布,方差未知,样本为小样本,因此采用T检验。3)计算检验统计量:样本平均值17.17,样本标准差2.98,检验统计量为 (17.17-20)/(2.98/√10)=-3.00314)当置信度选择97.5%,自由度为9,此时为单尾检验,临界值为2.262。5)由于-3.0031<-2.262,拒绝原假设,因此接受备择假设,该器件满足国家标准。2. 假设检验类型单样本检验:检验单个样本的平均值是否等于目标值;相关配对检验:检验相关或配对观测之差的平均值是否等于目标值;独立双样本检验:检验两个独立样本的平均值之差是否等于目标值;3. 统计检验方法Z检验:一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数>平均数的差异是否显著。T检验:用于样本含量较小(例如n<30),总体标准差σ未知的正态分布样本。F检验:F检验又叫方差齐性检验。在两样本t检验中要用到F检验。检验两个样本的方差是否有显著性差异 这是选择何种T检验(等方差双样本检验,异方差双样本检验)的前提条件。(T检验用来检测数据的准确度,检测系统误差 ;F检验用来检测数据的精密度,检测偶然误差。)卡方检验:主要用于检验两个或两个以上样本率或构成比之间差别的显著性,也可检验两类事物之间是否存在一定的关系。4. 双尾检测和单尾检测这个和我们提出的原假设相关,例如我们检测的原假设:器件平均值>=20。我们需要拒绝的假设就是器件平均值<20,此时就是单尾检验;如果我们的原假设是器件平均值>20,则我们需要拒绝的假设就是器件平均值<20和器件平均值=20,此时就是双尾检测。5. 置信区间和置信水平在统计学中,几乎都是依据样本来推断总体的情况的,但在推断的过程中,我们会遇到各种各样的阻碍和干扰;所以我们推断出的结果不是一个切确的数字,而是在某个合理的区间内,这个范围就是置信区间。但整体中所有的数据都在这个范围也不现实,我们只需要绝大多数出现在置信区间就可以了,这里的绝大多数就是置信水平的概念,通常情况我们的置信水平是95%。置信区间[a,b]的计算方法为:(z分数:由置信水平决定,查表得。)a = 样本均值 – z*标准误差,b = 样本均值 + z*标准误差志在必得。不学自知,不问。自晓,古今行事未之有也!就数据分析而言,我们通过统计学可以用更富有信息驱动力和针对性的方式对数据进行操作;更深入、更细致地观察数据是如何进行精确组织的,并且基于这种组织结构确定数据分析的方法,来获取更多的信息。本文由 @木兮擎天@ 原创发布于人人都是产品经理。未经许可,禁止转载题图来自Unsplash,基于CC0协议
查通识课答案的公号:校园服务社区直接把不懂的通识课题目复制到对话框发送,然后就会有答案出来了!1、(单选题)统计一词包括三个含义,以下选项中不包含在内的是()A、统计工作B、统计资料C、统计科学D、统计方法答案:D2、(单选题)统计兼有三种职能,以下选项中不包含在内的是()A、学习B、信息C、咨询D、监督答案:A3、(单选题)统计工作作为一种认识社会经济现象总体和自然现象总体的实践过程,一般包括四个环节。以下选项中不包含在内的是()A、统计设计B、统计调查C、统计报告D、统计分析答案:C4、(判断题)统计一词起源于国情调查,最早意为国情学。答案:√5、(判断题)统计工作所取得的各项数字资料及有关文字资料,一般反映在统计表、统计图、统计手册、统计年鉴、统计资料汇编和统计分析报告中。答案:√1.21、(单选题)世界上最早定期进行人口普查、公布普查结果并把人口普查作为一项条款写进宪法的国家是()A、美国B、中国C、德国D、日本答案:A2、(单选题)对全国人口进行过一次声势浩大的“点闸对比”,给每户编制户帖,住户据实填报,内容包括姓名、籍贯、性别、年龄、住址、职业、产业状况等的朝代是()A、西汉B、北宋C、明朝D、清朝答案:C3、(判断题)中国最早的人口调查目前国现存的最早的人口统计数字在公元前2200年的殷商时代。答案:×1.31、(单选题)政治算术学派的代表人物是()A、威廉配第和格朗特B、费雪和皮尔逊C、康令和阿亨华尔D、威廉配第和康令答案:A2、(单选题)《政治算术》在写作上,突出的特色是()A、比较了英国、荷兰和法国的多个方面B、用数字、度量和尺寸来说明问题C、为英国的殖民战略服务D、是政治算术学派的代表作答案:B3、(单选题)格朗特利用了英国教会的数据观察出生和死亡的现象,他制作了第一个()A、出生性别率表B、各种流行病的死亡率C、死亡率表D、每年新生儿死亡率答案:C4、(判断题)大量使用数字对英、法、荷三国的经济实力进行比较,以论证“英格兰的情况和各种问题,并非处于可悲的状态”的著作是《政治算术》答案:√5、(判断题)凯特勒最重要的贡献是编制了世界上第一个死亡表(即生命表的基础)。答案:×1.41、(单选题)统计研究的具体方法有很多,从大的方面看有五种。以下选项不属于基本研究方法的是()A、大量观察法B、统计列表法C、统计模型法D、综合指标法答案:B2、(单选题)综合指标,是指用来从总体上反映所研究现象数量特征和数量关系的范畴及其数值,以下选项不属于综合指标总量的是()A、相对指标B、平均指标C、标志变异指标D、商品价格答案:D3、(判断题)大量观察法的数理依据是大数定律。答案:√1.51、(单选题)下面选项里的()不是总体的特点A、大量性B、可数性C、同质性D、差异性答案:B2、(单选题)全面调查是对()进行的A、有限总体B、无限总体C、部分总体D、全部总体答案:A3、(单选题)如果研究的对象是中国大学生,则最具可操作性的总体表述是()A、所有具有中国国籍的大学生B、所有在中国大学就读的大学生C、所有在中国大学就读且具有中国国籍的大学生D、所有在中国大陆的大学就读且具有中国国籍的大学生答案:D4、(判断题)标志是说明总体特征的,指标是说明总体单位特征的。答案:×5、(判断题)统计总体按总体单位是否有限分为两种:有限总体和无限总体。答案:√