作者介绍@大师兄混迹数据江湖十余载。主要负责大数据商业变现和产品运营工作。学好统计学,让你成为高富帅,迎娶白富美,走上人生巅峰,不是不可能,但可能性只有0.00001%。从统计学的角度,这是小概率事件。但是学好统计学的现实好处多多,我就随便举几个例子给大家听听。学会看问题,懂得数字的意义。新闻报道上,各种各样的数字随处可见,如果你不想被各种数字蒙骗,最好学点统计学。学过统计的人,当看到这样的数字的时候,就会多问几个为什么,就能明白数字背后的真实含义了。用数据说话,让你的说服力爆表。现在职场上的人们,谁不要给领导汇报工作,或者团队之间讨论问题。当你汇报和讨论的时候,光说,“我觉得”,“我保证”,“根据我的经验”,这些个词太没有信服力了。必须说数据,摆事实。利用清晰的数据传达具有强有力说服的信息。体验一种与众不同的思维方式。很多人的思维方式,非黑即白。但世界上的很多事物并不是非黑即白。统计学的思维就是永远不肯定这个世界到底是什么样子的。统计学永远是讲概率的,就是可能性。这就是一种概率思维方式。懂因果,知报应。统计学常常研究两个因素之间的关系,叫做因果关系。例如,你的学历对你收入的影响。统计学家可能会说,学历每提升一个层次,年收入将提高1.2万元。所以不要相信读书无用论,你要相信概率。如果你相信自己能成为比尔盖茨,那读书对你确实没意义,同样,这只是小概率事件,基本不会发生在你身上。既然统计学这么厉害,这么牛逼,这么重要。作为统计学专业的我,我就忍不住要给大家好好梳理下统计学的知识框架,并且带着大家一点一点的学习下统计学和概率论的知识。在今后的关于统计学的文章中,我努力实现以下几个小目标。目标一:构建出统计学需要掌握的知识框架,让读者对这个知识体系一览无余。目标二:尽量阐述统计学每个知识在数据分析工作中的使用场景以及边界条件。目标三:为读者解答数据分析中碰到的各种统计学问题。今天这篇文章,主要还是带大家从宏观的层面理解下统计学。概率与概率分布稍微关注过统计学的人,可能会这么一个疑问。为什么大学里会有这样两门课,《概率论与数理统计》,《统计学》,它们有什么区别?我的理解,《概率论与数理统计》更专业一些,偏理工科,会有大量公式的推导,知其然,知其所以然;而统计学这本书更基础,侧重于概念现象的解释,一般会直接给出结论,而不要求掌握结论的数理推导过程,文理科皆可用。但不管是哪门课程,前期都是先讲概率和概率分布。概率论是统计学的基础,而随机事件的概率是概率论研究的基本内容。统计学不研究统计,它研究的是不确定性。我们的世界是一个充满不确定性的环境,整个世界并非严格按照某个制定好的路线运行的。多数事物之间也并非有因必有果,万物之间充满了不可控的随机事件,我们不会因为今天努力了明天就一定会成功。不确定性事件唯一的规律就是概率,独立随机事件我们没办法预测或控制它在某个时刻一定会发生,但却可以用概率来描述它发生的可能性。以概率论作为理论基础,为我们提供了认识不确定世界的方法。这一章节,需要大家掌握几个核心概念:随机事件概率概率分布数字特征用图表演示数据今年疫情期间,待在家里除了陪伴家人以外,每天讨论最多、关注最高的事件莫过于疫情的新动态,这些动态的展现形式大家有没有注意到,各种专业、好看、直观的图表和数据图,让数据呈现得一目了然。是的,工作中,一名数据分析师拿到了数据后,第一步要做的是数据初步探索,这也叫数据的预处理,这个时候,更多的就是利用各种图表探索数据。图表的好处是它可以很直观的看到数据的分布以及趋势,更有效的观察数据。这一章节,需要大家掌握几个核心概念:数据类型统计表统计图数据的概括性度量利用上面所讲的图表展示,我们可以对数据分布的形状和特征有一个大致的了解,但要全面把握数据分布就要反映数据分布特征的代表值。通常包含分布的集中趋势、分布的离散程度、分布的形状。数据分析中,最常见的场景,就是你手上拿到一组,一批或者一坨数据。不懂统计学的人,可能会不知所措,或者说,你不做些加工和处理,你不知道这些数据有啥用。这个时候,就需要通过这些概括性的度量指标,来帮我们从宏观上把握数据中的初步信息。这一章节,需要大家掌握几个核心概念:众数/平均数方差/标准差偏度/峰度统计量及其抽样分布抽样好懂,抽样分布不好懂。抽样,就是从研究的总体中抽取一部分个体作为我们真正的研究对象,可以简单把样本理解为总体的一个子集,通过样本的结果来推测总体情况。比如我们想知道中国成年男性的平均身高,理论上最准确的办法是调查中国所有成年男性的身高,然后计算平均数。很显然,没人这样做。实际的做法总是抽取一部分人,然后计算这部分人的平均身高,由这个平均身高来大致估计总体的平均身高。理解了抽样,再来理解抽样分布。抽样分布说的是对谁的分布?答案是样本统计量,比如样本均数或者样本比例。以样本均数为例,一般说样本均数的抽样分布如何如何,这里,样本均数被当成了一个随机变量来看待。我们最希望大家记住的要点:样本均数是一个随机变量,但对于初学者,这确实是比较反直觉的。为何样本均数可以被当做一个随机变量?因为样本均数是依赖样本计算得出的:每抽取一组样本都可以计算出一个样本均数,而且这些样本均数或多或少都会有些差异。由此,样本均数会随着抽样的不同而随机变动。只是现实生活中我们一般只抽取一组样本,计算一个样本均数,因此,会觉得样本均数不变。这一章节,需要大家掌握几个核心概念:统计量抽样抽样分布参数估计当初大学里,学数理统计的时候,到了这块就感觉越来越难了,学习的过程中可以说就是囫囵吞枣,似懂非懂。但现在,经过漫长的实践过程,对统计学的知识有了更深一步的理解。统计推断,说白了,就两件事。第一个,参数估计。第二个,各类假设检验。学习到这里,假如你是做数据挖掘,机器学习的,你就会强烈意识到,数据挖掘和统计学之间是存在千丝万缕的联系。参数估计,顾名思义就是对参数进行估计,那什么是参数呢?就是你假设分布的参数就是说你认为或者知道某个随机过程服从什么分布,但是不确定他的参数是什么,那怎么办?你采样、采很多样本(实际值),通过这些样本的值去估计分布的参数就是参数估计。这一章节,需要大家掌握几个核心概念:参数点估计区间估计假设检验上面讲到,统计推断就需要明白两件事,一件是参数估计,另外一件是假设检验。假设检验是什么?说白了,假设检验就是先对总体猜一个参数值,然后利用样本的数据检验这个参数值准不准。互联网生产实践中的ABTEST方法,就经常会应用到假设检验的思想。举一个简单的例子:学而思网校App进行了改版迭代,现在有以下两个版本版本1:首页为一屏课程列表 版本2:首页为信息流如果我们想区分两个版本,哪个版本用户更喜欢,转化率会更高。我们就需要对总体(全部用户)进行评估,但是并不是全部存量用户都会访问App,并且每天还会新增很多用户,所以我们无法对总体(全部用户)进行评估,我们只能从总体的用户中随机抽取样本(访问App)的用户进行分析,用样本数据表现情况来充当总体数据表现情况,以此来评估哪个版本转化率更高。这一章节,需要大家掌握几个核心概念:假设检验P值回归分析大学里学习统计学的时候,最喜欢学回归分析,也是学的最明白的一部分。因为它的易懂性,也因为它的实用性。但随着自己数据分析经验的积累,对回归分析的理解也越来越深,它不是简单的回归模型求解那么简单,它更是一种日常工作中解决问题的思路和方法论。数据挖掘中使用的各种高深的模型,任何模型都可理解成回归模型,包含因变量Y和自变量X,求解参数。在我看来,回归分析由两部分组成:业务分析和技术分析。其中,业务分析属于“道”的层面,而技术分析属于“术”的层面。从“道”的层面来看,回归分析是业务分析,其分析的不是数据,而是业务,是业务中的不确定性。通过业务分析,获得对业务不确定性的理解,进而将抽象的不确定性业务问题转换成一个具体的数据可分析问题。什么是数据可分析问题?一个业务问题,只要有清晰定义的因变量Y(不管是看得见的,还是看不见的)和清晰定义的自变量X,这就是一个数据可分析问题。一旦把业务问题规范成一个具体的数据可分析问题(有清晰定义的Y和X),那么接下来就是技术分析,属于回归分析“术”的层面。在这个层面,人们关心对于一个既定的Y和X,要研究其中的不确定性,应该选择什么样的模型设定,线性模型还是非线性模型,一元模型还是多元模型,简单的决策树还是随机森林,普通的神经网络还是深度学习。模型设定确定下来后,还需思考应该用什么方法估计,如何调优,等等。以上是对回归分析的一种广义上的理解,狭义上理解回归分析,需要理解以下几个核心概念:相关系数回归分析最小二乘法显著性检验多重共线性拟合优度当然,统计学的知识还包含很多,比如方差分析,时间序列分析,统计指数等等,这些知识在特定的应用场合,也有着广泛的应用,只是相比以上的知识点,应用范围更小点。一个数据人的自留地是一个助力数据人成长的大家庭,帮助对数据感兴趣的伙伴们明确学习方向、精准提升技能。
统计学就是从对收集到的一群相关数据进行分析,而发展的一门数学分支。生活中的一个物体,在数学中我们总想用数据来表示它的某种特征,例如长度、角度、面积、体积等。对于包含多个个体的集合,理想中我们可以用一个数字集合来表示它,但实际上如果集合包含个体数量较多甚至无穷多个,那么想要获取全部个体的相关数据总是不易实现,甚至是无法实现的。我们可以用抽样的方法获取数据,用来近似这种个体的集合的某种特征,即用较少数量的样本来代表数量庞大或无穷多的总体。总体是一个确定的集合,那么它的所有特征都是已经确定的(只是我们可能不清楚)。样本则是总体的代表,是具有偶然性的,不同的抽样方法、不同的样本数量、甚至同样的两次抽样都有可能获取到不同的样本值。因为总体是一个确定的集合,那么每种个体出现的机率也是确定的,我们称之为概率。每次抽样中每种个体出现的次数不是一个确定值,是具有偶然性的,我们称之为频率。也就是说频率是针对一次抽样的结果来说的,概率则是针对整个总体而言的、与抽样的结果无关。当抽样的次数越多时,样本的结果就越有可能接近总体的特征,即可以用样本分布估计总体分布。
有些东西,不了解它的本质会感觉美好,比如魔术。有些东西,了解了它的本质才会感觉美好,比如统计学。“每日科学”网站发布了一则来自美国堪萨斯大学的调查结果,80%的大学生都存在统计学焦虑。他们普遍觉得“我的高中数学都学得不怎么样,怎么可能学会统计学?”因此,他们在选课时不约而同地将统计学推迟到大四。甚至有一位心理学的学生,因为统计课上的问题,花了七八年才拿到学士学位。因为每当考试的时候,他总是目光呆滞地望着试卷。直到最后一次,教授不得不将他带到办公室答题,才得以顺利完成考试。统计学真的这么难,要视为洪水猛兽吗?当然不是。产生焦虑的人群往往是被学习统计学的恐惧所压倒,并不是他们完全学不会。就拿那个七八年才通过统计学考试的学生来说,离开了考场,在一个不像考试的环境里答题,他就能够获得通过。而且,据他的导师评价,在他从事心理治疗行业以后,统计工作做得还不错。其实我们真的没有必要那么焦虑。就像美国达特茅斯大学经济学教授查尔斯·惠伦所说:“统计学真的可以非常有趣,而且其中绝大部分的内容也没有那么难。”惠伦教授所著的《赤裸裸的统计学》是一本关于统计学常识的科普书,他从理财投资、民意调查、医疗健康、刑事判决等生活案例中剥茧抽丝,向我们展示了妙趣横生的统计学规律。接下来,我们将从无处不在的统计学、趣味盎然的统计学和会欺骗人的统计学三个方面,带大家了解这本书的核心内容,正确而全面地认识统计学原理的广泛性、趣味性和可靠性。听完本期解读,或许你会重新认识统计学对你生活的影响,或许你会爱上它。下面,我们首先来看一看无处不在的统计学。01 无处不在的统计学我国著名的数学家华罗庚说起数学的用途,是“宇宙之大,粒子之微,火箭之速,化工之巧,地球之变,生物之谜,日用之繁,无处不同。”作为数学的分支,统计学在人类生活中的作用也大抵如此。从国家政策的制定到个人高考志愿的填报,从DNA(脱氧核糖核酸)的检测到综艺娱乐,都离不开统计学的功劳。我们可以从个人、集体、国家三个层面来了解统计学的作用。首先来看统计学与个人的关系。有很多人热衷于买彩票,我们就从彩票开始。某地的彩票以一万份为一个开奖组,设有一、二、三等奖。这一万份中,中一等奖的概率是万分之一,也就是只设1个一等奖。中二等奖的概率是千分之一,共有10个。三等奖有100个,中奖概率是百分之一。当你看到一等奖的奖金有5000元,二等奖的奖金200元,中了三等奖也有10元的奖金时,会不会迫不及待地掏出你的钱包,期盼好运会降临到你的头上?如果我告诉你,要是花2元钱买了这张彩票,回报只有八毛钱,而且这八毛钱也未必回到你的钱包里。你还会这么做吗?我的依据是数学期望。期望是统计学中的一种平均值,将每一个等级的中奖概率乘以奖金额度,最后将得到的结果相加,就能够计算出购买此类彩票的平均值0.8。实际上,期望值是所有管理决策过程中,尤其是金融领域最实用的统计工具,无论是买股票还是理财产品,它都可以帮助你做出决定。说回彩票,有人还是认为,这张彩票没有中奖是运气不好,如果一直买下去,总有一次能中奖。实际上,一个人长年累月地买彩票,中小奖的可能性很大,但是想通过中大奖赚回远比买彩票还要多的钱,则几乎不可能。这就要用到统计学的一个重要定律:大数定律,也就是随着试验次数的增多,结果的平均值会越来越接近期望值。刚才我们计算过,购买彩票的期望值就是花2元钱赚回0.8元。查理·芒格说“哪怕只是休闲娱乐。 如果概率对我不利,我都不愿参与。”希望你也能像他这么想。统计学不仅可以给个人提供帮助,更可以用于集体。你应该听说过“样本”这个词,我们常常需要从包含了大量个体的对象中抽取一小部分作为样本,来推理这个对象的特征,而不是直接利用这个对象本身。这个对象我们称为总体。如果研究的对象是人,那么一个集体就是总体。统计学中有一条中心极限定理,它已经证明,在正确抽样的前提下,样本与它所代表的总体存在相似关系。也就是说,我们不必把每一个个体都拿出来研究,研究有限的样本就足够了。比如上级领导要评估一所高校的人才培养质量,其中一项工作就是对这个学校前几年毕业生的毕业论文进行抽查,论文总数就是一个总体。每年毕业的学生数量那么多,当然不能对每位学生的论文进行检查,抽样才是最正确的。抽取出的学生论文能否准确反映出这所学校毕业生的整体水平呢?答案是肯定的。中心极限定理告诉我们,只要是进行正确的抽样,100个学生样本的成绩分布与全校几万名毕业生的成绩分布不会有太大差异。人数再多也不影响中心极限定理的应用,比如用于国家层面。2011年下半年,《纽约时报》头版报道了“美国全国陷入了对未来的深深忧虑和怀疑中”的状况,其中包括高达89%的美国人不相信政府会做正确的事,有2/3的美国公众认为,财富应该在美国得到更加公平的分配,有46%的美国人认可奥巴马作为美国总统的工作表现等等,显然他们不会向3亿多美国人逐个提问,而是抽取其中一小部分人完成这个民意调查。现在你应该大致了解了统计学在个人、集体甚至国家这些不同层面上的应用,但你可能还是觉得,统计学总是用在那些严肃而又重大的场合,又或者学术研究上,它始终是枯燥乏味的。那么,接下来,我们瞧一瞧统计学有趣的一面。02趣味盎然的统计学统计学的有趣并不意味着你在看书或者计算的时候哈哈大笑,毕竟它既不是漫画也不是魔术。统计学的有趣在于,用好了它,一些事情就会变得有趣起来。盲品测试是商业市场经常使用的产品测试方法,在测试过程中隐藏被测试产品的品牌、包装或其它可以识别的内容,由消费者对产品进行鉴定和选择。1972年百事可乐公司就曾用盲品测试的方法创造了营销经典案例“百事挑战”,在可口可乐爱好者多出3倍的情况下逆袭,直至与对手平分秋色。如果结合多一点统计学知识,盲品测试还能为你创造惊人的广告效应。美国约瑟夫·施利茨啤酒公司做过这么一次电视直播,邀请了100个声称偏爱对手公司产品的消费者参加盲品测试。注意,邀请的不是他们自己的忠实客户,而是对手公司的。为什么要这么做呢?要知道,大多数消费者进行盲测时基本区分不出任何一种啤酒品牌。如果提供了两种啤酒,从概率上来看,将会有一半的人选择对手产品,一半的人选择施利茨。要是100个钟爱竞品的消费者里有一半人都改口说喜欢自己家的产品,那会造成多么轰动的效果!施利茨公司的高明之处正在于此。你或许有疑问,即使每一位消费者都有1/2的机率选择施利茨啤酒,但有没有可能恰好直播这一次,更多的人选择了对手产品呢?这种令人尴尬的情况当然是有可能发生的。这时我要给你讲讲概率中的一个重要试验——伯努利试验,又称为二项分布。在试验次数固定、每一次试验中目标事件的概率也固定的情况下,如果试验都是相互独立不受影响的,那么我们完全可以根据目标事件发生的次数,计算出这个次数发生的总概率。比如说,施利茨公司认为,现场至少有40名消费者选择施利茨啤酒,活动才算是成功,那么目标事件发生的次数就是大于等于40,使用二项分布可以算出概率为98%。也就是说,如果举办一次100人的盲品测试,会有98%的机率让超过40个钟爱对手公司啤酒的消费者亲口说自己家的啤酒更好喝,这就是施利茨公司对电视直播充满信心的主要原因。而且,概率的计算过程也非常简单,如果你是一个销售经理,想不想复制一次这样的活动呢?除了商业,统计学可以给更多行业添加有趣的成分,尤其是娱乐业。娱乐业用上了统计学,可以增加节目的刺激性和趣味性,使节目变得更加精彩,《开门大吉》正是如此。游戏规则是:选手面对编号分别为1-4号的大门。依次按响门上的门铃,会听到一段音乐。选手正确回答出这首歌的歌名,就能获得这扇门对应的家庭梦想基金。节目的悬念不断、掌声不断,是因为在每一扇门前,选手可能选择继续比赛,也可能放弃。播放的每一首歌,没人能保证选手有多大的机率猜对,越是难猜,观众就越期待。而这些节目组都知道。选手放弃或继续比赛的概率都是1/2。选手猜对歌曲,也就是通过每一扇门的概率,节目组根据选手年龄层次和歌曲受众人群的匹配度,由大数据可以估算出来。再加上,选手通过的每一扇门都是相互独立的。综合这三点,节目组可以计算出选手们最终获得梦想基金的期望值,这个值对节目来说非常重要。那么,还记得我们刚才对彩票期望值的计算方法吗?过程大致相同。将通过不同门数的概率分别乘以通过不同门数的奖金,最后将得到的结果相加,就得到梦想基金的期望值。不过,这里的概率比较复杂。因为一个选手可能只通过一扇门,也可能接连通过二、三、四扇门,也可能挑战失败。这里要使用独立事件的乘法公式,通过了几扇门,就把各扇门的通过概率依次相乘,从而算出通过不同门数的概率值。除了正式的综艺节目,明星的超话排名、社交网站推送的短视频,都有统计运算带给我们的惊喜。生活在大数据时代,统计学给我们带来了许多乐趣。实际上,统计学与我们的生活、工作、学习、娱乐都息息相关,以至于我们常常会过于相信和依赖它,忘记了它也有可能欺骗我们。————————休息一会儿,请接着阅读:【你有没有想过,你可能高估了统计学(二)】,跟着我,继续揭开统计学的秘密。
本文为PMCAFF专栏作者大山里人出品前言道德经云:”道生一,一生二,二生三,三生万物“。学习知识亦是如此,一个概念衍生出两个概念,两个概念演化出更小的子概念,接着衍生出整个知识体系。笔者结合自己对统计学和概率论知识的理解写了这篇文章,有以下几个目标目标一:构建出可以让人理解的知识架构,让读者对这个知识体系一览无余目标二:尽l量阐述每个知识在数据分析工作中的使用场景及边界条件目标三:为读者搭建从“理论”到“实践"的桥梁注意:本文不涉及对概念及方法公式的推导,读者有兴趣可以自行查阅《概率与统计》概述你的“对象” 是谁?此对象非彼“对象”,我们学习“概率和统计学”目的在于应用到对于“对象”的研究中,笔者将我们要研究的“对象”按照维度分为了两大类。一维:就是当前摆在我们面前的“一组”,“一批”,哪怕是“一坨”数据。这里我们会用到统计学的知识去研究这类对象。二维:就是研究某个“事件”,笔者认为事件是依托于“时间轴”存在的,过去是否发生,现在是可能会出现几种情况,每种情况未来发生的可能性有多大?这类问题是属于概率论的范畴。因此,我们在做数据分析的研究前,先弄清我们研究的对象属于哪类范畴,然后在按着这个分支检索自己该用到的知识或方法来解决问题。分析就像在给 “爱人” 画肖像从外观的角度描述一个姑娘,一般是面容怎么样?身段怎么样?两个维度去描述。就像画一幅肖像画,我们的研究“对象”在描述性分析中也是通过两个维度去来描述即,“集中趋势---代表值”,“分散和程度”。看到这几个概念是不是就很熟悉了?笔者认为一个描述性的分析就是从这两个维度来说清楚你要研究的对象是什么样子?至于从哪些特征开始说呢?就是常用的概念“均值”,“方差”之类的。下面我们进入正题,笔者将详细阐述整个知识架构。第一部分对“数据”的描述性分析数据分析中最常规的情况,比如你手上有一组,一批或者一坨数据,数据分析的过程就是通过“描述”从这些数据中获取的信息,通常可以从两个维度去描述:1集中趋势量度:为这批数据找到它们的“代表”均值(μ)均值的局限性均值是最常用的平均数之一,但是它的局限性在于“若用均值描述的数据中存在异常值的情况,会产生偏差” ;例如下面一组数据就不太适合用均值来代表这5个人的年龄均值是:31.2岁很显然,在这组数据中,大部分人的年龄是10几岁的青少年,但是E的年龄是100岁为异常值,用均值来描述他们的年龄是31.2岁,很显然用均值作为描述这组数据是不合适的,那么我们该如何准确的表征这组数据呢???中位数中位数,又称中点数,中值。是按顺序排列的一组数据中居于中间位置的数。中位数的局限回到上一个例子,若用中位数来表征这组数据的平均年龄,就变得更加合理,中位数15。那么我们在看一下下面一组数据,中位数的表现又如何?中位数:45这组数据的中位数为:45,但是中位数45并不能代表这组数据。因为这组数据分为两批,两批的差异很大。那么如何处理这类数据呢?接下来介绍第三位平均数。众数众数是样本观测值在频数分布表中频数最多的那一组的组中值。平均数可以表征一批数据的典型值,但是仅凭平均数还不能给我们提供足够的信息,平均数无法表征一组数据的分散程度。2分散性与变异性的量度(全距,迷你距,四分位数,标准差,标准分)全距=max-min全距也叫“极差”极差。它是一组数据中最大值与最小值之差。可以用于度量数据的分散程度。全距的局限性全距虽然求解方便快捷,但是它的局限性在于“若数据中存在异常值的情况,会产生偏差。为了摆脱异常值带来的干扰,比如我们看一下下面的两组数据。只是增加了一个异常值,两组数据的全距产生了巨大的差异。四分位数所有观测值从小到大排序后四等分,处于三个分割点位置的数值就是四分位数:Q1,Q2和Q3。Q1:第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。Q2:第二四分位数 (Q2),又称“中位数”,等于该样本中所有数值由小到大排列后第50%的数字。Q3:第三四分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。迷你距 也叫“四分位距”迷你距。它是一组数据中较小四分位数与较大四分位数之差。即:迷你距= 上四分位数 - 下四分位数迷你距可以反映中间50%的数据,如果出现了极大或极小的异常值,将会被排除在中心数据50%以外。因此使用迷你距可以剔除数据中异常值。全距,四分位距,箱形图可以表征一组数据极大和极小值之间的差值跨度,一定程度上反应了数据的分散程度,但是却无法精准的告诉我们,这些数值具体出现的频率,那么我们该如何表征呢?我们度量每批数据中数值的“变异”程度时,可以通过观察每个数据与均值的距离来确定,各个数值与均值距离越小,变异性越小数据越集中,距离越大数据约分散,变异性越大。方差和标准差就是这么一对儿用于表征数据变异程度的概念。方差方差是度量数据分散性的一种方法,是数值与均值的距离的平方数的平均值。标准差标准差为方差的开方。通过方差和标准差我们现在可以表征一组数据的数值的变异程度。那么对于拥有不同均值和不同标准差的多个数据集我们如何比较呢?标准分——表征了距离均值的标准差的个数标准分为我们提供了解决方法,当比较均值和标准差各不相同的数据集时,我们可以把这些数值视为来自同一个标准的数据集,然后进行比较。标准分将把每一个数据集转化为通用的分布形态,进行比较。标准分还有个重要的作用,它可以把正态分布变为标准正态分布,后文会有介绍。第一部分小节描述一批数据,通过集中趋势分析,找出其“代表值” ;通过分散和变异性的描述,查看这批数据的分散程度。集中趋势参数:均值,中位数,众数分散性和变异性参数 : 全距,四分位距,方差,标准差,标准分第二部分关于“事件”的研究分析概率论1一个事件的情况为了让读者更好理解,笔者概率论中最核心的概念以及概念之间彼此的关系绘制成了下图,那么接下来笔者开始“讲故事”了。事件:有概率可言的一件事情,一个事情可能会发生很多结果,结果和结果之间要完全穷尽,相互独立。概率:每一种结果发生的可能性。所有结果的可能性相加等于1,也就是必然!!!概率分布:我们把事件和事件所对应的概率组织起来,就是这个事件的概率分布。概率分布可以是图象,也可以是表格。如下图1和表2都可以算是概率分布期望:表征了综合考虑事情的各种结果和结果对应的概率后这个事情的综合影响值。(一个事件的期望,就是代表这个事件的“代表值”,类似于统计里面的均值)方差:表征了事件不同结果之间的差异或分散程度。2细说分布理想很丰满,现实很骨感。真实的生活中别说去算一个事件的期望,即使把这个事件的概率分布能够表述完整,每个事件对应的概率值得出来就已经是一件了不起的事情了。因此,为了能更快更准确的求解出事件的概率分布,当某些事件,满足某些特定的条件,那么我们可以直接根据这些条件,来套用一些固定的公式,来求解这些事件的分布,期望以及方差。“离散型”数据和“连续性”数据差异在我们展开分布的知识之前,先补充一个预备知识,什么是离散数据,什么是连续数据,它们二者之间有什么差异?离散数据:一个粒儿,一个粒儿的数据就是离散型数据。连续数据:一个串儿,一个串儿的数据就是连续型数据。好啦,开个玩笑!!!别打我,下面分享干货!!!其实上述描述并没有错误,离散型和连续型数据是一对相对概念,同样的数据既可能是离散型数据,又可能是连续型数据。判别一个数据是连续还是离散最本质的因素在于,一个数据组中数据总体的量级和数据粒度之间的差异。差异越大越趋近于连续型数据,差异越小越趋近于离散型数据。举个例子人这个单位,对于一个家庭来说,就离散型数据,一个家庭可能有 3个人,4个人,5个人....等等。对于一个国家来说,就是连续型数据,我们的国家有14亿人口,那么以个人为单位在这个量级的数据群体里就是连续型数据。清楚了离散型和连续型数据的差异,我们接下来一块科普这几种常用的特殊分布。离散型分布离散数据的概率分布,就是离散分布。这三类离散型的分布,在“0-1事件”中可以采用,就是一个事只有成功和失败两种状态。连续型分布连续型分布本质上就是求连续的一个数据段概率分布。正态分布f(x)----是该关于事件X的概率密度函数μ ---均值σ^2 ---方差σ ---标准差绿色区域的面积 ---该区间段的概率正态分布概率的求法step1 --- 确定分布和范围 ,求出均值和方差step2 --- 利用标准分将正态分布转化为标准正态分布 (还记得 第一部分的标准分吗?)step3 ---查表找概率离散型分布 → 正态分布 (离散分布转化为正态分布)精彩的地方在这里,笔者已经阐述了连续型数据和离散型数据是一对相对的概念,那么这就意味着在某种“边界”条件下,离散型分布和连续型分布之间是可以相互转化的。进而简化概率分布的计算。这里笔者不在偷懒直接上皂片了(编公式快吐了!!!!)3多个事件的情况:“概率树”和“贝叶斯定理”多个事件就要探讨事件和事件之间的关系对立事件:如果一个事件,A’包含所有A不包含的可能性,那么我们称A’和A是互为对立事件穷尽事件:如何A和B为穷尽事件,那么A和B的并集为1互斥事件:如何A和B为互斥事件,那么A和B没有任何交集独立事件:如果A件事的结果不会影响B事件结果的概率分布那么A和B互为独立事件。例子:10个球,我随机抽一个,放回去还是10个球,第二次随机抽,还是10选1,那么第一次和第二次抽球的事件就是独立的。相关事件:如果A件事的结果会影响B事件结果的概率分布那么A和B互为独立事件。例子:10个球,我随机抽一个,不放回去还是10个球,第二次随机抽是9选1,那么第一次和第二次抽球的事件就是相关的。条件概率(条件概率,概率树,贝叶斯公式)条件概率代表:已知B事件发生的条件下,A事件发生的概率概率树 --- 一种描述条件概率的图形工具。假设有个甜品店,顾客买甜甜圈的概率是3/4 ;不买甜甜圈直接买咖啡的概率是1/3 ;同时买咖啡和甜甜圈概率是9/20。从图中我们可以发现以下两个信息1. 顾客买不买甜甜圈可以影响喝不喝咖啡的概率,所以事件甜甜圈与事件咖啡是一组相关事件2. 概率树每个层级分支的概率和都是1贝叶斯公式 ----提供了一种计算逆条件概率的方法贝叶斯公式用于以下场景,当我们知道A发生的前提下B发生的概率,我们可以用贝叶斯公式来推算出B发生条件下A发生的概率。第二部分小节1. 事件,概率,概率分布之间的关系2. 期望,方差的意义3. 连续型数据和离散型数据之间的区别和联系4. 几何分布,二项分布,泊松分布,正态分布,标准正态分布5. 离散分布和正态分布可以转化6. 多个事件之间的关系,相关事件和独立事件,条件概率和贝叶斯公式第三部分关于“小样本”预测“大总体”现实生活中,总体的数量如果过于庞大我们无法获取总体中每个数据的数值,进行对总体的特征提取进而完成分析工作。那么接下来就用到了本章节的知识。1抽取样本总体:你研究的所有事件的集合样本:总体中选取相对较小的集合,用于做出关于总体本身的结论偏倚:样本不能代表目标总体,说明该样本存在偏倚简单随机抽样:随机抽取单位形成样本。分成抽样:总体分成几组或者几层,对每一层执行简单随机抽样系统抽样:选取一个参数K,每到第K个抽样单位,抽样一次。2预测总体(点估计预测,区间估计预测)点估计量--- 一个总参数的点估计量就是可用于估计总体参数数值的某个函数或算式。场景1:样本无偏的情况下,已知样本,预测总体的均值,方差。(1) 样本的均值 = 总体的估算均值(总体均值的点估计量) ≈ 总体实际均值(误差是否可接受)(2)总体方差 估计总体方差 场景2:已知总体,研究抽取样本的概率分布比例抽样分布:考虑从同一个总体中取得所有大小为n的可能样本,由这些样本的比例形成一个分布,这就是“比例抽样分布”。样本的比例就是随机变量。举个栗子:已知所有的糖球(总体)中红色糖球比例为0.25。从总体中随机抽n个糖球,我们可以求用比例抽样分布求出这n个糖球中对应红球各种可能比例的概率。样本均值分布:考虑同一个总体中所有大小为n的可能样本,然后用这个样本的均值形成分布,该分布就是“样本均值分布” ,样本的均值就是随机变量。中心极限定理:如果从一个非正态总体X中抽出一个样本,且样本极大(至少大于30),则图片.png的分布近似正态分布。区间估计量--- 点估计量是利用一个样本对总体进行估计,区间估计是利用样本组成的一段区间对样本进行估计。举个栗子:今天下午3点下雨;今天下午3点到4点下雨。如果我们的目的是为了尽可能预测正确,你会使用那句话术?如何求置信区间?(这里笔者讲一下思路,不画图码公式了,读者有兴趣可以查阅一下教材)求置信区间简便公式(直接上皂片)关于C值参数:置信水平 90% C=1.64 , 95% C=1.96 , 99% C=2.58待补充知识一(t分布)我们之前的区间预测有个前提,就是利用了中心极限定理,当样本量足够大的时候(通常大于30),均值抽样分布近似于正态分布。若样本量不够大呢?这是同样的思路,只是样本均值分布将近似于另一种分布处理更加准确,那就是t分布。这里笔者直接放张图,不做拓展了。待补充知识二(卡方分布)----注意待补充不代表不重要,是笔者水平有限,目前还不能用简单的语言概述其中的精髓。卡方分布的定义若n个相互独立的随机变量ξ、ξ、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。卡方分布的应用场景用途1:用于检验拟合优度。也就是检验一组给定的数据与指定分布的吻合程度;用途2:检验两个变量的独立性。通过卡方分布可以检查变量之间是否存在某种关联:3验证结果(假设检验)假设检验是一种方法用于验证结果是否真实可靠。具体操作分为六个步骤。两类错误---即使我们进行了“假设检验”依然无法保证决策是百分百正确的,会出现两类错误第一类错误:拒绝了一个正确的假设,错杀了一个好人第二类错误:接收了一个错误的假设,放过了一个坏人第三部分小节1. 无偏抽样2. 点估计量预测(已知样本预测总体,已知总体预测样本)3. 区间估计量预测(求置信区间)4. 假设检验第四部分相关与回归(y=ax+b)这里介绍的相关和回归是关于二维双变量的最简单最实用的线性回归,非线性回归这里不暂不做拓展。散点图:显示出二变量数据的模式相关性:变量之间的数学关系。线性相关性:两个变量之间呈现的直线相关关系。最佳拟合直线:与数据点拟合程度最高的线。(即每个因变量的值与实际值的误差平方和最小)误差平方和SSE:线性回归法:求最佳拟合直线的方法(y=ax+b),就是求参数a和b斜率a公式:b公式:相关系数r:表征描述的数据与最佳拟合线偏离的距离。(r=-1完全负相关,r=1完全正相关,r=0不相关)r公式:结束语笔者这里梳理了统计与概率学最基础的概念知识,尽量阐述清楚这些概念知识之间关联的关系,以及应用的场景。底层概念是上层应用的基础,当今浮躁的“机器学习”,“神经网络”,“AI自适应”这些高大上的关键字满天飞。笔者认为踏踏实实的把“基础”打扎实,才是向上发展的唯一途径。笔者水平有限,概念理解有偏差的地方欢迎批评指正。
从统计学角度讲,医学研究的基本原则主要包括三个,即对照、随机化和重复。之所以要遵循这些基本原则,其目的主要是:从处理因素这个要素的角度讲,就是要保障尽量控制混杂因素;从研究对象这个要素的角度讲,就是要保障其同质性、代表性和均衡性;从实验效应这个要素的角度讲,就是要保障观察结果的精度。下面,医刊汇编译就这三个基本原则做简要说明。一、对照原则。在设置接受处理因素的实验组时,应该同时设置没有处理因素的对照组,因此,对照原则主要是从处理因素的角度来控制混杂因素的。设立对照应满足均衡性,它是指在设立对照时除给予的处理因素不同外,对照组和实验组的其它一切因素应尽可能一致。设立对照时,应把研究对象随机地分入对照组和实验组中进行平行试验。为避免倾向性偏倚,一般应采用盲法。设立对照的方式有安慰剂对照、空白对照、自身对照、标准对照(也称阳性对照)等。此外,各组的例数应尽可能相等。二、随机化原则。随机化是指采用随机的方式,使得每个研究对象都有同等的机会被抽取或分到不同的实验组和对照组中,它包括随机化抽样和随机化分组。因此,随机化原则主要是从研究对象的角度来控制混杂因素的。常用的随机化抽样方法有简单随机抽样、系统抽样、分层抽样、整群抽样等。常用的随机化分组方法主要有简单随机化、分层随机化及区组随机化等。随机化分组应在实施处理因素的干预前利用随机数字表或由计算机采用统计专业软件产生随机数来完成。临床试验研究中,由于研究的对象是陆续进入试验观察的,往往不能采用随机抽样的方法获取研究样本,只能根据事先确定的样本量利用“三标准”来获得,但无论是否是随机抽样,获得研究样本后分组原则上应是随机的。三、重复原则。重复原则是指在相同试验条件下进行多次研究或观察,以提高试验的可靠性和科学性。包括整个试验的重复、多个试验对象的重复、同一个试验对象的重复观测。样本量充分反映了重复原则,试验对象的重复观察次数越多,由样本计算出的频率或均数等统计量就越接近总体参数。但样本含量过大或试验次数过多,不仅会增加控制试验条件的难度,且会造成不必要的浪费。因此,为了获得科学、可靠的结果而又节约研究的成本,在设计中应从统计学的角度进行正确的样本量估计。
一、绪论统计是一种关于人们认识客观世界总体数量变动关系及其规律的活动的总称,是人们认识客观世界的有力工具之一。统计在其诞生之初是作为一种社会实践活动,它为一国的统治者了解国家情况和管理国家提供重要的数量依据。但是随着社会经济和科技的发展,再加上由不断趋于完善和系统化的统计实践活动所孕育的统计学的自身进步,使得统计从最初的社会实践活动逐渐成为一种由科学理论所指导,帮助某一学科了解其领域内数量的变动关系及规律,从而更好地开展研究活动的方法论科学。人们通过统计设计(根据所要研究问题的性质,在有关科学理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准,同时提出收集、整理和分析数据的方案和工作进度等)、收集数据(即收集统计数据,一般通过实验法和调查法两种方法收集)、整理分析(对原始数据进行整理、加工、分析,用描述统计或推断统计两种方法)和开发应用这四个环节来开展统计研究,从而使收集的原始数据能更好地服务于所要开展的研究活动。现代统计学可以分为两大类:一类是以抽象的数量为研究对象,研究一般的收集数据、整理数据和分析数据方法的理论统计学(将研究对象一般化、抽象化,以数学中的概率论为基础,从纯理论的角度,对统计方法加以论证);另一类是以各个不同领域的具体数量为研究对象的应用统计学(与各不同领域的实质性学科有着非常密切的联系,是有具体对象的方法论)。将统计这一实践活动上升到理论,并加以总结和概括,就构成了统计学。从整体到局部,再从局部到整体,是我认为的学习一门学科较为系统性的路径。关于统计学的基本概念,它是由总体与总体单位、样本、标志、统计指标与指标体系、统计数据构成。其中:1) 统计总体是指根据一定目的确定的所要研究的事物的全体(它应该由足够数量的同质性单位构成);总体单位就是组成总体的各个个体,根据总体所包含的单位数量,分为有限总体和无限总体。2) 样本是指总体的部分单位所组成的集合,样本所包含的总体单位数称为样本容量。3) 标志是指总体各单位普遍具有的属性或特征。它分为品质标志(表明单位属性方面的特征,它的表现只能用文字或语言来描述,如性别)和数量标志(表明单位数量方面的特征,可以用数值来表现,如收入)、不变标志和变异标志。4) 统计指标是反映统计总体数量特征的概念(指标的概念)和数值(指标的取值),它分为数量指标(用绝对数表示)和质量指标(用相对数或平均数表示)。指标体系是指由一系列相互联系的统计指标所组成的有机整体,用以反映所研究现象各方面相互依存、相互制约的关系。5)变量是统计数据的主体,它被定义为说明现象的某一数量特征的概念,变量的具体取值被称为变量值;根据变量值连续出现与否,分为连续型变量(变量的取值在数轴上连续不断,无法一一列举,即在一个区间内可以任取任意实数值)和离散型变量(变量的数字只能用计数的方法取得,其取值是整数值,可以一一列举);定类尺度、定序尺度、定距尺度、定比尺度共同构成了统计数据的计量尺度,它们由低到高、由粗略到精确分层。
统计学从现代观点看,是同时对某种对象进行计算及其数量特征相联系的学科。但是,由此得出结论说任何一种计算都是统计。例如,如果有个人计算过他将搬去住的那栋楼有八层,分配给他的那套住宅有36平方米,即家里平均每人有九平方米。这是一种计算,但绝不能叫做统计。但是若计算这个城市本五年计划建造的全部楼房中有多少栋五层的,多少栋六层的,可以住多少人和每人平均有多少,居住面积等,这才是统计。统计学再举个例子,昨天从工厂传送出来,110辆汽车,这也不是统计。日复一日的观察,确定每日从传送带出来的汽车数量,用这些数字编成一个数列,对数列进行分析表明在汽车日产量,稍有上升的总趋势下,一星期每日产量有周期性波动,这是统计,但不完全是单纯的统计。从上述例子可以看出,统计不同于单纯的计算。统计所确定的数量特征,不是一次就永远固定下来,不是对一切对象都相同的。它们是有由一对象转向另一对象,且一般谁的时间而变化的。但是为了能观察到这种变化,需要有许多对象-许多房子,许多人,许多天。可见统计学研究的是在一定情况下,会发生变异的数量特征。统计学所说的变异,并非单纯差异。例如,某一牌子的许多钟表齿轮因直径、齿轮牙数而不同,同一年的白天因其长短而不同。这些变化与统计学无关,因为该机械的那个齿轮的大小,那一天和那个月白天的长短只能是这样,而不能是别样。另方面齿轮完全磨损,前的使用时间的长短,当日下雨的数量是统计学,可以考察的,因为两者都不是事先给定的。统计学的目的总的来说,统计学所考察的数量特征的各个数值都不是由他们对总体属性或在总体中的地位来硬性规定的。其数值可以是任何一个,因而包含着偶然因素。统计学从构成总体的各个对象的数量特征导出整个总体的或其中某一部分的特征来说,换句话说,得出综合性指标。前面所说变异特征决定了不经过大量调查,要想得出这类指标是不可能的。大量观察并据此获得的综合性指标,显然这决不是一件简单的工作。这是一种需要运用科学的研究方法和规则的一个复杂的认识过程。统计实践在远古时代,从计算人口就开始了。最早的证据有4000多年的历史。古罗马的公民财产估价,除了计算人口以外,还登记居民的一部分财产。但是,运用科学方法来获得人口普查比较准确的结果,则是19世纪的事。人口普查无论是一般的还是为研究某种对象和解决某种任务,而进行的调查取得指标以及对指标加以分析的方法和规则都是统计科学所要研究的。马克思认为,佩蒂在一定程度上是统计学的创始人。在此,不能不提及哥朗克的著作,它收集了伦敦许多年份死亡人数的资料并编出头一份,当然是很原始的,以相对数表示的各种年龄的死亡率表。而有意地运用统计素质来体现现象的某种规律,却只是18世纪才由苏思咪尔茜进行的。他认为这种规律是神定次序的体现。例如新生儿中男孩与女孩数有一个稳定的比例21:20,就是这种秩序的体现。统计学的另一来源是德国学者,关于国势学的著作。17世纪末,他没在哈乐市、格尔木什塔特市、哥廷根市各大学开始讲授这门课。应该特别提到的是阿亨瓦尔的欧洲各国国势学概要这一著作。这些研究获得了记诉学派的称号后来叫统计学派。国势学可见统计学是有政治算术和国势学等要素所构成的。如果说统计学为认识大量现象的规律性,从政治算术中吸取了对大量现象数量特征进行研究的综合分析方法。那么他从国势学中,则吸取了对社会经济现象进行数量描述的体系。统计学作为一门科学进一步的发展的特点,是对分析各种各样的大量社会经济过程和现象所必需的资料进行收集和整理的方式方法的完善。
统计学中最重要的提取信息的方式就是对原始数据进行一定的运算,得出某些代表性的数字,以反映数据某些方面的特征,这种数字称为统计量。用统计学语言表述就是:统计量是样本的函数,它不依赖于任何未知参数。常用统计量① 样本均值它反映出总体X数学期望的信息。样本均值是最常用的统计量。② 样本方差 它反映的是总体X方差的信息。样本方差和样本标准差也是最常用的统计量。③ 样本变异系数变异系数 样本变异系数反映出变异系数的信息。变异系数反映出随机变量在以它的均值为单位时取值的离散程度。此统计量消除了均值不同对不同总体的离散程度的影响,常用来刻画均值不同时不同总体的离散程度。④ 样本k阶矩反映出总体k阶矩的信息。显然,k=1时就是样本均值。⑤ 样本k阶中心矩 反映出总体k阶矩的信息。显然,k=2时就是样本方差。⑥ 样本偏度 反映出总体偏度的信息。偏度反映了随机变量密度函数曲线在众数(密度函数在这一点达到最大值)两边的偏斜性。如果 ,则偏度为0。⑦ 样本峰度 它反映出总体峰度的信息。峰度反映了密度函数曲线在众数附近的“峰”的尖峭程度。如果满足 ,则峰度为0。统计三大分布精确的抽样分布大多是在正态总体情况下得到的。在正态总体条件下,主要有卡方分布,t分布,F分布,常称为统计三大分布。χ2分布χ2分布即卡方分布。若随机变量X,X,… , Xn相互独立,且数学期望为0,方差为1(即服从标准正态分布),则随机变量X称为服从自由度为n的卡方分布。卡方分布的示意图:由图中可以看出,当自由度足够大时,卡方分布的概率密度曲线趋于对称。当n—> +∞ 时,卡方分布的极限分布是正态分布。卡方分布的数学期望为: 卡方分布的方差为: χ2分布具有可加性,即若 独立,则 t分布t分布也称为学生氏分布。设随机变量X ~ N(0,1),Y~χ2(n),且X与Y独立,则其分布称为t分布,记为t(n),其中n为自由度。t分布的示意图:由上图可以看出:t分布的密度函数曲线与标准正态分布N(0,1)的密度函数曲线非常相似,都是单峰偶函数。t(n)的密度函数的两侧尾部要比N(0,1)的两侧尾部要粗一些。t(n)的方差比N(0,1)的方差要大一些。自由度为1 的分布称为柯西分布,随着自由度n的增加,t分布的密度函数越来越接近标准正态分布的密度函数。一般当n≥30时,t分布与标准正态分布就非常接近。当n≥2时,t分布的数学期望:E(t) = 0 当n≥3时,t分布的方差:D(t) = n/(n-2)F分布F分布有着广泛的应用,在方差分析、回归方程的显著性检验中有着重要的地位。设随机变量Y与Z相互独立,且Y和Z分别服从自由度为m和n的χ2分布,随机变量X有如下表达式: 则称X服从第一自由度为m,第二自由度为n的F分布,记为F(m, n),简记为X ~ F(m, n)。F分布的密度函数的图形如图:随机变量X服从F(m, n)分布,则数学期望和方差分别为: 中心极限定理中心极限定理:设从均值为μ,方差为σ(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值x的抽样分布近似服从均值为μ,方差为σ/n 的正态分布。我们常把证明其极限分布为正态分布的定理统称为中心极限定理。中心极限定理要求n必须充分大,究竟要多大才算充分大呢?这和总体的分布形状有关。总体离正态越远,要求n越大。推荐:统计学入门级-描述性统计理论
大数据文摘出品来源:medium编译:王缘缘、蔡婕、小七统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。嗯,以上是统计学课本中对统计学的定义!但是近日,一位来自谷歌的统计学家却发长文表示“统计学很无聊。“这位统计学家叫Cassie Kozyrkov,目前是Google的首席决策师。在这篇文章中,她提到:“别看我们平时都是在做一些看起来'高大上'的计算,其实核心都很单调的;另外,数据是很无聊的,人性化的事情才是难点。”让我们先普及一些统计学的入门级概念,然后跟着这位统计学家一起,看看她的逻辑证明。总体当一个普通人想到“population”这个词时,他会想到什么?人,对吗?不只是一两个,而是很多,几乎是所有的人!在我们的学科中,它更像是所有的事物的集合。总体可以是人、像素、南瓜、神奇宝贝,或者任何你喜欢的东西。总体是我们感兴趣的所有项目的集合。先停一下,在总体的确定上是需要花点时间的,因为这是研究的基础。规则是这样的:通过写下你对总体的描述,你就确定了你的总体是什么,除此之外没有任何东西可以影响你的决定。通过进一步阅读,你就能接受这些术语和相应的限定条件了。提出你感兴趣的总体并没有听起来那么令人望而生畏,请记住,是由你自己来选择你想要感兴趣的事物。没有错误的选择,只要它是具体和全面的就可以是一个总体。接下来我会讲得很详尽,并且建议以下图中的树木作为本文感兴趣的总体。如果我的总体是这片森林中的树木,那么 它们就代表了我所关心的关于这个决定的一切。我对这些树感到很兴奋。坦白地说,这种兴奋是绝对真实的: 我非常喜欢这个图形,因为我在自己的讲座中使用它很多年了。请允许我再怀念它一次……当然,飞机上漂浮着一些树木,从空间上来说是非常合理的。由于这是我的总体,我应该记住,我并没有理由从自己的分析中得出我已经从其他森林中的树木了解到的结论。我的发现充其量只适用于这些树木。最糟糕的是,嗯......我只想说数据科学家的生活中有时候是需要去构建特征的,不只是描述表面特征。这里有你看不到的树吗?这样的研究没意义。它不是我们总体的一部分。挑选任何一棵树?同样没有意义,因为这不是你的整个总体。只有他们同时在一起对我们来说才是有意义的。这就是总体的概念。样本来自总体中的任意项目集合的样本。样本是你拥有的数据,而总体是你“希望”拥有的数据。这些橙色树木集合中的任何一个都是样本。我希望你们能有一些直觉知道哪个更好。在之后的文章中,我将告诉你如何使样本成为一个好样本。我将用这个例子的其余部分刺激专业人士来证明这一点。观测值观测值是对样品中单个项目的测量。我们在这个蓝色标记的树上进行的测量是一个观测值。坚持使用精确语言的人会注意到,“sample”是一组观察结果的集合名词。从理论上讲,“samples”作为复数并不表示“观测到的多个值”,而是表示“多个观测值的集合”。统计数据啊哈!统计数据!这当然是很重要的,因为我们在研究了这些数据之后命名了我们的学科!统计数据是通过任意一种方法去获得样本数据。那么什么是统计数据?这只是统计我们拥有的数据的一种方式。是不是很失望,不用失望,事实证明,统计和统计学科是两码事。统计数据的示例:如果我们对树的高度感兴趣,那么看到所有这些橙色标记树的平均高度等统计数据就不会感到惊讶。如果你愿意,你也可以采用那些样本树高,找到最高的前三个,把它们加起来,取对数,加上最低的两个树高的差值的平方根,通过这样的计算加工可以产生另一个统计数据!也许有用,也许不是那么有用,但也是一个统计数据。如何证明统计学是无聊的假设我们对树的平均高度感兴趣,对于这个样本,树的平均高度恰好是22.5米。这个数字对我们意义吗?让我们回顾一下总体的概念:只对总体的研究是感兴趣的。这个样本是总体吗?不是。因此,它对我们来说并不重要。我们从一些无聊的树上取了一些无聊的测量值,然后我们把这些无聊的测量值进行加工计算……从这个过程中得出的结果也很无聊。所以,我已经向你们证明了你们心中一直知道的事实:统计学是无聊的!证明完毕。用词不当!统计学家们疯了吗?为什么我们要用一些无聊的数字来命名我们的学科呢?实际上,这是用词不当。如今我们对这些术语进行深度剖析,分析的是关于计算统计数据的学科,但统计学不仅仅是研究那些数据,而是要从那些数据中挖掘信息,从而实现对未知领域的探索,但也有可能这只是伊卡洛斯式的飞跃,最后得不到任何成果。我们学科的真实名称(这个名称更能体现学科的含义)更加晦涩:统计数据的消化……但这听起来有点恶心,所以我们把它简化为平易近人的说法。让我来解释一下。参数接下来讲我们的主角:参数。这个东西太花哨太闪亮。是那种演出结束后会获得一个花束的角色,它甚至有属于自己的希腊字母(通常是θ)。你可以将参数看作是总体里的一个统计量,它是由所有我们感兴趣的总体计算得来的,但是通常无法直接获得。参数总结了总体特征我们承认这些树木使我们深感兴奋,现在要我总结一下你关心的一切。参数值显示:所有树木的真实平均高度恰好是21.1米。想象一下,这是周六早上,你站在这片森林的空地中间。你还没测量过任何树木,但你超想知道这个数字,这是你梦寐以求的一切。知道参数需要什么?你必须精确的测量所有树!一旦做完了,你会有任何不确定的吗?不,你拥有了所有的信息。你可以通过分析继续计算平均值。因为你的样本是总体,这样统计量就是参数。你正在处理的纯粹是事实问题。由于拥有准确和完整的数据,因此无需进行复杂的计算。我碰巧住在纽约市,尽可能远离树木。因此,当我面临像“精确测量所有这些树木”这样令人生畏的任务时,惰性就开始了。我真心想知道这个参数,但我反问自己:“我真的需要完全了解它还是只要测量一些树木?也许我只需对整个画面进行局部观察,以形成对该参数的最佳猜测......这表面上就足以完成工作要求了。”当我这么想的时候,我在用统计学的方式思考!我永远不会知道答案。我的懒惰意味着我必须放弃获取事实或确定答案,但希望我最终会得到一些仍然有助于做决策的结果。我仍然可以把它变成一个合理的行动。这就是统计学的精髓。无中生有?你们当中有些人希望我会说,“有了这个神奇的公式,你就可以将不确定的变成确定!”不,当然不会。没有任何神奇的东西可以无中生有。当我们不知道事实时,我们所能希望的是将数据与假设结合起来做出合理的决策。假设一个假设是描述宇宙可能的样子,但它不一定是真的。我们需要搞清楚,我们的样本是否使得之前的假设看上去很荒谬,以此判断是否要改变我们的想法,但这超出了本篇博文的范围,在这里提一下思路。我在这里说了一些乱七八糟的话,如“所有树木的真正平均高度不到20米。”这是一个假设。你知道真相(我错了!)因为你在这个例子中无所不知......但我什么都不知道。我的陈述是一个完全有效的假设,描述了潜在的真实性。我将会在得到一些数据后才能知道自己的假设是否合理。估计和估计量如果知道参数,我们就不用做这些了。我们正在寻找事实,但不幸的是事实并不总能获得准确结果。由于我们无法计算参数,只能使用统计信息对其进行最佳猜测。估计是对最佳猜测的一个华丽的表述估计只是对参数真实值的最佳猜测的一个华丽表述。这是你的猜测值,而估计量是你用于获得该数字的公式。让我告诉你,你在统计估计方面已经非常了不起。准备好了吗?假设你只知道其中一棵树高23米。你能告诉我对所有树木的真实平均高度的估计吗?23米?对,我也这么觉得!如果这是我们唯一的信息,我们只能猜测23米;如果我们猜测其他任何数字,我们就是在胡诌。23米是我们知道的全部,所以我们只能猜23米。为了得到别的东西,我们必须结合更多的信息(在这个例子中没有)或者做出假设......这就又是另外的事情了。好的,我们做另一个尝试!假设我们有一个样本,我们所知道的是它的高度平均为22.5米。现在你最好的猜测是什么。22.5米?根据几个教科书中的估计方法,包括矩法估计法,极大似然估计法等得到的最后答案和你的直觉是相同的!在现实生活中99%以上的案例表明,只需将你的样本视为你的总体并随意使用其中的任何内容即可获得最佳猜测。你不需要任何特殊课程。棒棒哒,我们完成了!你总是需要统计学,这是一个谎言;你不需要。如果你只是想得到最好的猜测而获得灵感,分析是你的最佳选择。摆脱p值,你不需要不必要的压力。相反,你可以选择按照这些原则生活:越多(相关)数据越好,并且你的直觉非常适合做出最好的猜测,但不知道这些猜测有多准确......所以要保持谦虚。但是,请不要认为我在抨击我的学科。我花了十多年的时间致力于统计学,它并不是一门一无是处的学科。所以,在合适的时候使用统计方法才是有用的,非常有用的。最后,你什么时候真的需要统计学呢?Cassie也给出了这张决策图,拿好不谢
编辑导语:不论在什么岗位,都要懂得本岗位的基础知识,打牢基础后面才能稳步发展;数据分析也是如此,数据分析必须要掌握统计学的基础知识;本文是作者分享的关于统计学入门基础的知识,我们一起来学习一下吧。要做好数据分析,除了自身技术硬以及数据思维灵活外,还得学会必备的统计学基础知识!因此,统计学是数据分析必须掌握的基础知识,即通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学。统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各个领域,而在数据量极大的互联网领域也不例外;因此扎实的统计学基础是一个优秀的数据人必备的技能。但是,统计学的知识包括了图形信息化、数据的集中趋势、概率计算、排列组合、连续型概率分布、离散型概率分布、假设检验、相关和回归等知识;对于具体的知识点,本文就不一一介绍了,感兴趣的同学请参考《深入浅出统计学》、《统计学:从数据到结论》等等专业书籍。统计学分为描述性统计学和推断性统计学。一、描述性统计定义:使用特定的数字或图表来体现数据的集中程度和离散程度。1. 集中趋势集中趋势集中趋势是指一组数据所趋向的中心数值,用到的指标有:算数均数、几何均数、中位数。算数均数:即为均数,用以反映一组呈对称分布的变量值在数量上的平均水平。几何均数:常用以反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。中位数:适用于偏态分布资料和一端或两端无确切的数值的资料,是第50百分位数。百分位数:为一界值,用以确定医学参考值范围。2. 离散趋势离散趋势是反映数据的变异程度,常用指标有极差、四分位间距、方差与标准差、变异系数。极差:为一组数据的最大值和最小值之差,但极差不能反映所有数据的变异大小,且极易受样本含量的影响。常用以描述偏态分布。四分位数间距:它是由第3四分位数与第1四分位数相减得到,常和中位数一起描述偏态分布资料的分布。方差与标准差:反映一组数据的平均离散水平,消除了样本含量的影响,常和均数一起用来描述一组数据中的离散和集中趋势。变异系数:也称作异常值,多用于观察指标单位不同时,可消除因单位不同而不能进行比较的困难。例如箱线图就可以很好反映其中部分重点统计值:3. 抽样方法和中心极限定理抽样方法:我们在做产品检验的时候,不可能把所有的产品都打开检验一遍看是否合格,我们只能从全部的产品中抽取部分样本进行检验,依据样本的质量估算整体的产品质量,这个就是抽样,抽样的定义是为了检验整体从整体中抽离部分样本进行检测,以样本的检测结果进行整体质量的估算的方法。抽样有多种方法,针对不同的目的和场景,需要运用不同的方法进行检测,常见的抽样方法有:1)概率抽样简单随机抽样;分层抽样;整群抽样(先将总体中若干个单位合并为组,这样的组称为群,再直接对群进行抽样);系统抽样(将总体中所有单位按一定顺序排列,在规定的范围内随机抽取一个单位作为初始单位,然后再按事先指定好的规则确定其他样本单位);阶段抽样(先抽群,然后在群内进行二阶段抽样)。2)非概率抽样方便抽样(依据方便原则自行确定);判断抽样(依据专业知识进行判断);自愿样本(调查者自愿参加);滚雪球样本(类似树结构);配额样本(类似分层抽样);3)两者抽样方法之间的比较:非概率抽样适合探索性的研究,为更深入的数据分析做准备,特点是操作简便、时效快、成本低;而且对于抽样中的统计专业技术要求不是很高;概率抽样的技术含量更高,调查成本更高,统计学专业知识要求更高,适合调查目的为研究对象总体,得到总体参数的置信区间。4)中心极限定理:若给定样本量的所有样本来自任意整体,则样本均值的抽样分布近似服从正态分布,且样本量越大,近似性越强。以30为界限,当样本量大于30的时候符合中心极限定理,样本服从正态分布;当样本量小于30的时候,总体近似正态分布时,此时样本服从t分布。样本的分布形态决定了我们在假设检验中采用什么方法去检验它。二、推断性统计定义:根据样本数据推断总体的数据特征。1. 基本步骤产品质检的时候用的几乎都是抽样方法的推断性统计,推断性的过程就是一种假设检验,在做推断性统计的时候我们需要明确几点:明确后可以对应我们假设检验的几个步骤了:提出原假设(H0)和备选假设(H1),确定显著性水平(原假设为正确时,人们把它拒绝了的概率);选择检验方法,确定检验统计量;确定P值,作出统计推理;假设对于某一个器件,国家标准要求:平均值要低于20。某公司制造出10个器件,相关数值如下:15.6、16.2、22.5、20.5、16.4、19.4、16.6、17.9、12.7、13.9。运用假设检验判断该公司器件是否符合国家标准:1)设假设:2)总体为正态分布,方差未知,样本为小样本,因此采用T检验。3)计算检验统计量:样本平均值17.17,样本标准差2.98,检验统计量为 (17.17-20)/(2.98/√10)=-3.00314)当置信度选择97.5%,自由度为9,此时为单尾检验,临界值为2.262。5)由于-3.0031<-2.262,拒绝原假设,因此接受备择假设,该器件满足国家标准。2. 假设检验类型单样本检验:检验单个样本的平均值是否等于目标值;相关配对检验:检验相关或配对观测之差的平均值是否等于目标值;独立双样本检验:检验两个独立样本的平均值之差是否等于目标值;3. 统计检验方法Z检验:一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数>平均数的差异是否显著。T检验:用于样本含量较小(例如n<30),总体标准差σ未知的正态分布样本。F检验:F检验又叫方差齐性检验。在两样本t检验中要用到F检验。检验两个样本的方差是否有显著性差异 这是选择何种T检验(等方差双样本检验,异方差双样本检验)的前提条件。(T检验用来检测数据的准确度,检测系统误差 ;F检验用来检测数据的精密度,检测偶然误差。)卡方检验:主要用于检验两个或两个以上样本率或构成比之间差别的显著性,也可检验两类事物之间是否存在一定的关系。4. 双尾检测和单尾检测这个和我们提出的原假设相关,例如我们检测的原假设:器件平均值>=20。我们需要拒绝的假设就是器件平均值<20,此时就是单尾检验;如果我们的原假设是器件平均值>20,则我们需要拒绝的假设就是器件平均值<20和器件平均值=20,此时就是双尾检测。5. 置信区间和置信水平在统计学中,几乎都是依据样本来推断总体的情况的,但在推断的过程中,我们会遇到各种各样的阻碍和干扰;所以我们推断出的结果不是一个切确的数字,而是在某个合理的区间内,这个范围就是置信区间。但整体中所有的数据都在这个范围也不现实,我们只需要绝大多数出现在置信区间就可以了,这里的绝大多数就是置信水平的概念,通常情况我们的置信水平是95%。置信区间[a,b]的计算方法为:(z分数:由置信水平决定,查表得。)a = 样本均值 – z*标准误差,b = 样本均值 + z*标准误差志在必得。不学自知,不问。自晓,古今行事未之有也!就数据分析而言,我们通过统计学可以用更富有信息驱动力和针对性的方式对数据进行操作;更深入、更细致地观察数据是如何进行精确组织的,并且基于这种组织结构确定数据分析的方法,来获取更多的信息。本文由 @木兮擎天@ 原创发布于人人都是产品经理。未经许可,禁止转载题图来自Unsplash,基于CC0协议