“统计学就像比基尼,你所看到的就是真实显露的,但隐藏起来的才是至关重要的”——无名氏统计是有一些枯燥,但同时也可以很有趣,不是么?我们知道统计学包括描述性统计和推论统计,而今天的主题是描述性统计的介绍。什么是描述性统计呢?维基百科的定义:"A descriptive statistic is a summary statistic that quantitatively describes orsummarizes features of a collection of information."中文翻译:描述性统计是一种汇总统计,用于定量描述或总结信息集合的特征。这里把关键词勾划一下:1、Describe-描述2、Summarize-总结注意:描述性统计的对象既可以是总体,也可以总体的一部分即是样本。一、描述性统计的分类描述性统计又分为 § 集中趋势 Measures of central tendency § 离散趋势 Measures of Dispersion1、集中趋势 Measures of Central Tendency集中趋势又称 “数据的中心位置”,它是一组数据的代表值。集中趋势的概念就是平均数(Average)的概念,它能够对总体的某一特征具有代表性,表明所研究的对象在一定时间、空间条件下的共同性质和一般水平。常用的集中趋势统计量(statistics)有:§ 算数均值§ 中位数§ 众数再强调下,在统计学中,这三个统计量都有 average(平均) 的含义。1、均值 Mean某组观测值的算术平均数(Arithmetic mean)2、中位数 Median按大小顺序排列的数据组之中点位置对应的数值,该数值把数据组分成两半3、众数 Mode出现频次最高的观测值。看起来集中趋势的概念很简单,那么有什么现实价值?这里我们举两个简化的例子加以说明:某创业公司A有10个员工,其中1人月薪10万,9人月薪2万;创业公司B也有10个员工,其中1人月薪5万,9人月薪2.5万。现在假设你要对两家公司员工的收入水平进行对比,你会如何做呢?通过简单计算我们可得:公司A: 算术平均 Mean 2.8万;中位数 Median 2万;众数 Mode 2万公司B: 算术平均 Mean 2.75万;中位数 Median 2.5万;众数 Mode 2.5万如果看均值 Mean,结果是A公司比B公司高(少数高收入者会把整体平均拉高);如果看中位数 Median,显然B公司更高。那么应该用Mean还是Median?这取决于我们的目的。如果我们的目的是研究大多数人的薪资水平,显然用中位数更好,因为B公司90%的人的薪水要高于A公司。但是在现实生活中,我们往往看到的是用均值mean进行统计说明,尤其是国内媒体,经常用均值来描述某地区某时间段的收入水平。一个不好的结果是,大部分人都会觉得自己“被平均”了。这样做出来的数据固然好看(就像上述公司A),但并不能更准确地展示普通大众真实的收入水平。看到这里,你应该就能深刻理解“统计学就像比基尼,你所看到的就是真实显露的,但隐藏起来的才是至关重要的”这句话的含义了是不。二、离散趋势 Measure of Dispersion所谓离散趋势就是研究观测值偏离中心值(center) 的程度。仅仅研究集中趋势往往是不够的,所以还需要研究离散趋势Measure of Dispersion. 常用离散统计量有:§ 极差§ 标准差(方差)§ 四分位数间距§ 变异系数(相对标准差)1、极差 Range为一组数据的最大值和最小值之差。极差的计算较简单,但是它只考虑了数据中的最大值和最小值,而忽略了全部观察值之间的差异。极差在SPC控制图中有大量应用。2、方差或标准差 Variance or Standard deviation方差和标准差所反映的是一组数据与其均值为代表的中心的平均离散水平。因为标准差的计算应用到每一个变量值,所以,会受到极端值的影响,当数据中有较明显的极端值(outlier)时不宜使用。必须知道这一点,所有方差/标准差分析的前提是:样本总体服从正态分布,如果不服从,就要有补救措施,比如数据转换。3、四分位数间距 Inter Quartile Range (IQR)即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。第三 "四分位数" 与第一 "四分位数" 的差距又称四分位距, 常和中位数一起使用。比如箱型图。4、变异系数 Coefficient of Variation (CV)又叫相对标准差(RSD),变异系数CV是原始数据标准差与原始数据平均数的比。标准差只能度量一组数据对其均值的偏离程度。但若要比较两组数据的离散程度,用两个标准差直接进行比较有时就显得不合适了。例如一个总体的标准差是10,均值是100;如果另有一个总体的标准差是20,均值是2000。如果直接用标准差来进行比较,后一总体的标准差是前一总体标准差的2倍,似乎前一总体的分布集中,而后一总体的分布分散。但前一总体用标准差来衡量的各数据的差异量是其均值的1/10;后一总体用标准差来衡量的各数据差异是其均值的1/100,是微不足道的。可见用标准差与均值的比值大小来衡量不同总体数据的相对分散程度更合理。三、图形化工具前文刚开始我们提到关于描述性统计的两个关键词是 Describe(描述) 和 Summarize(总结);同时我们也介绍了可以通过集中趋势统计量以及离散趋势统计量来对目标数据进行描述、总结。但这些统计量基本都是数学计算,比较抽象,有没有更好的方法呢?答案是有:Visulization!没错,那就是一系列的图形化工具。在Excel软件或者Minitab软件都有很多图形化工具用以描述、总结和展示数据,下面摘选部分:§ 柱状图§ 条形图§ 箱型图§ 散点图§ 雷达图§ 气泡图
在数据分析的工作中,统计学可谓是灵魂角色,正是通过统计,让我们获得海量的数据,也正是通过统计学的各种分析策略,让数据变得有意义。通过统计分析,可以让国家知道国民的健康水平,并为国家作出策略性引导;也可以分析出哪个地区,甚至细致到哪个街区的某个位置点的犯罪率如何,一方面可为警力的调配作参考,另一方面还可以提醒市民出行注意安全……随着社会发展越来越快,我们已经身在各种数据统计的角色中了,通过统计分析发现规律,也成为了我们生活中不可或缺的一部分。那么,我们又该如何对统计到的数据进行统计分析呢?今天,我将跟大家分享一下既基础又重要的统计分析策略——描述性统计分析。什么是描述性统计分析?我们在做了相关的数据统计之后,将会收集到一系列复杂的数据信息,在这种情况下,仅仅单靠“看”数据,会让人一脸茫然。那想要了解数据的大致情况怎么办?在这时,使用描述性统计分析,利用图形和简单的计算,就能让我们了解到数据信息的整体情况,还能让我们观察到数据的特征和异常问题,十分便捷。常用的描述性统计分析有4个指标,分别是:平均值四分位数标准差标准分通过这4个指标的计算和图形视觉化展示,让我们发现“噢!原来这些数据是这样的情况!”。1.平均值平均值顾名思义就是计算数据的平均数是多少,可以让我们了解到数据的平均水平是多少。公式:平均值μ=(数值X1+X2+X3……)/n(多少项,数值的数量)优点:计算简单,可让人了解到平均水平如何。缺点:当数据值差距很大的时候,呈现的平均水平结果就可能会出现不客观的现象,出现平均数陷阱,让人误解。例如,我们总觉得自己的收入水平拉低了城市人均工资的水平线。举个例子:我们列几个数据来计算人均年收入。情况1:4个人,工资分别是10万、11万、12万、13万。平均收入=总收入(10万+11万+12万+13万)/人数(4人)=11.5万这种情况下,工资收入的差距不是特别大,平均收入水平是能正常体现出平均水平的。情况2:5个人,工资分别是10万、11万、12万、13万、10亿平均收入=总收入(10万+11万+12万+13万+10亿)/人数(5人)=2亿9.2万这种情况下,这几个人的收入突然加上了一个马爸爸的收入水平,让平均收入的金额拉得异常大,计算出来的平均收入是不具备参考性的,因为无法正常反映出这5个人收入的大致情况。2.四分位数四分位数是指在把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值,分割后我们会通过5个数值来描述数据的整体分布情况。下界:最小值,即第0%位置的数值;下四分位数:Q1,即第25%位置的数值;中位数:Q2,即第50%位置的数值;上四分位数:Q3,即第75%位置的数值;上界:最大值,即第100%位置的数值。优点:可以用来对比不同类别数据的整体情况,还可以识别出可能的异常值。缺点:无法反映数据的波动大小(1)中位数Q2的计算方式①排序:首先我们要将所有数值以从小到大,从左到右的顺序进行排序。②计算中位数Q2的位置:假设有n个数如果n是奇数,中位数就是位于中间位置的数值。如果n是偶数,中位数则是中间两个数的平均值。公式:Q2的位置=(n+1)x0.5举个例子:我们同样列几个人的年收入来计算中位数。情况1:4个人,工资分别是12万、10万、13万、11万。首先,我们将数据进行排序:接着我们对中位数位置进行计算:中位数Q2的位置=(4+1)x0.5=2.52.5即表示Q2的位置在第2个数值和第3个数值之间,因此我们求出第2第3项数值的平均值,就计算出中位数是多少。中位数Q2=(11万+12万)/2=11.5万情况2:5个人,工资分别是10亿、10万、13万、12万、11万。我们将数据进行排序:接着我们对中位数位置进行计算:中位数Q2的位置=(5+1)x0.5=33即表示Q2的位置就是在第3项数值的位置,而Q2的数值也等于第3项数据的数值,即是12万。中位数Q2=12万(2)四分位数的计算方式①先根据上一条的方法求出中位数Q2:②求出下四分位数和上四分位数:公式:下四分位数Q1的位置=(n+1)x0.25上四分位数Q1的位置=(n+1)x0.75举个例子:我们根据下面的数据,分析一下就餐人员距离的问题。以上图标已经将数据进行排列,总共有18个数据,接下来我们套用公式计算分别计算出下四分位数Q1、中位数Q2、上四分位数Q3的位置和数值:中位数Q2:Q2位置=(18+1)x0.5=9.5即中位数为第9和第10项的均值,Q2=(4+6)/2=5下四分位数Q1:Q1位置=(18+1)x0.25=4.75即下四分位数为第4和第5项的均值,Q1=(2+2)/2=2上四分位数Q3:Q3位置=(18+1)x0.75=14.25即上四分位数为第14和第15项的均值,Q3=(11+14)/2=12.5(3)箱线图在算出四分位数之后,可能有一些理科思维不太顺畅的人会看懵了,会疑问到这是表示什么呀?这时,就需要用到数据可视化了,用更加直观的形式去展示和分析数据的情况。而箱线图正是四分位数的专用可视化图形工具,箱线图于1977年由美国著名统计学家约翰·图基(John Tukey)发明,它能显示出一组数据的最大值(上界)、最小值(下界)、中位数、及上下四分位数。根据就餐人员距离的数据计算得出四分位数后,以箱线图呈现,我们发现中位数离下四分位数较近,这代表大部分数值集中在箱线图下端,集中在下四分位数和中位数之间。(4)四分位数应用1:比较数据四分位数在具体应用中,不仅可以分析单一的数据组的整体情况,还可以用来对比不同类别的数据集的整体情况。举个例子:通过某个岗位在不同城市的薪酬数据,我们会发现这个岗位在哪个城市的收入水平比较好,然后还可以根据不同经验年限的薪酬数据发现这个岗位的发展潜力如何?(5)四分位数应用2:识别出可能的异常值异常值的意思是跟其他数值对比起来,非常大或者是非常小的数值。通过技术手段,我们可以找到哪些数值可能是异常值,接着我们需要找出异常值的准确性,并进一步检查,看看之后该如何处理这些异常值。异常值的3点处理办法:①若异常值是被标记的错误异常数据,那么我们可以在数据分析前就需要进一步核对,并把异常值进行修正。比如出生的婴儿男女性别登记错了,这种情就需要核对修正。②异常值有可能是被错误包含在数据集中的值,这种情况下就要把异常值删除。比如出生的婴儿登记,把狗的信息登记上去了,这种情况下就应该把数据信息删除。③异常值可能是反常的数据值,被正确记录在数据集里,这种情况下异常值应该被保留。比如在病毒传播后,访问量突然剧增,这种情况下的异常值,是有效的真实数据,需要保留。(6)四分位数自动识别可能的异常值:Tukey’s testTukey’s test是用于计算出数据集中最大估计值和最小估计值的方法,当一个数值超过最大最小估计值的时候,就可能是异常值。公式最小估计值=下四分位数Q1-k(上四分位数Q3-Q1)最大估计值=Q3+k(Q3-Q1)可以根据不同数据的分析目的,对这个k进行取值,例如在一般情况下,k=1.5 代表中度异常k=3 代表极度异常举个例子:假设我们统计了12个温度数值,分别是69、69、70、70、70、70、71、71、71、72、73、300那么我们如何找出异常值呢?首先我们先找出下上四分位数的位置并计算出其数值。下四分位数Q1位置=(12+1)*0.25=3.25(位于第3第4个数值)即Q1=(70+70)/2=70上四分位数Q3位置=(12+1)*0.75=9.75(位于第9第10个数值)即Q3=(71+72)/2=71.5求出Q1和Q3的数值之后,我们就可以开始计算最小、最大异常值了。我们把设定k=1.5最小异常值=Q1-1.5(Q3-Q1)=70-1.5(71.5-70)=67.75最大异常值=Q3+1.5(Q3-Q1)=71.5+1.5(71.5-70)=73.75在这个数据集中,只有300这个数值是超过最小最大异常值的,那么我们接下来就可以根据实际情况把这个数值进行进一步处理。3.标准差:衡量数据的波动大小在统计学中,我们会用“离散程度”(即是变异性、波动大小)来衡量数据的稳定性。而“标准差”就是统计学当中用来在海量杂乱无章的数据中衡量数据相对于平均值的大小。优势:衡量波动大小缺点:如果两个数据差别比较大,那么就无法比较。那么我们如何来计算标准差呢?公式:假设有一个数据集X1、X2、X3平均值=μ方差=((X1-μ)2+(X2-μ)2+(X3-μ)2)/n标准差σ=√ ̄方差举个例子:哪个球员发挥更稳定?球员1:数据数量n=10平均值μ=(7x1)+(9x2)+(10x4)+(11x2)+(13x1)/10=10方差=((7-10)2x1+(9-10)2x2+(10-10)2x4+(11-10)2x2+(13-10)2x1)/10=2.2标准差σ=√ ̄2.2≈1.48球员2:数据数量n=11平均值μ=10方差≈49.27标准差σ≈7.02球员3:数据数量n=10平均值μ=10方差=3标准差σ≈1.73通过标准差比较后发现:波动大小:球员1<球员3<球员2标准差:1.48<1.73<7.02在我们熟知的NBA中,为了保证球员的质量,都会用标准差的方式去计算球员发挥的稳定情况。在标准差的计算中,标准差的单位是与熟知的单位一样的,例如上述例子中,数值的单位是(分),那么标准差的单位也是(分)。那么标准差的数值是大一点好还是小一点好?标准差的数值大小的好坏,其实主要是看我们用来分析什么东西。例如:①分析工厂制造:标准差小,就证明生产质量稳定,不会出现过多检验不合格的产品。②分析公司工资:标准差小,就证明该公司的工资是有上升空间的,只要你通过努力奋斗上升职业,你的工资收入是有很大的提升空间的。标准差虽然能表示数据整体的波动,但是它有个缺点:如果两个数据差别比较大的情况下那么就无法进行比较。例如:店铺A的销售额是1000万,店铺B的销售额是100万,两个店铺的标准差都约是20万。如果说两个店铺的“波动幅度相同”,这是不对的。因为一般情况下,如果原始数据值较大,那么它的波动(标准差)也会比较大。这句话怎么理解呢?比如,20万对于1000万和100万的比例是不一样的,一个是五分之一,一个是五十分之一。如何避免标准差的缺点?如果能用标准差除以数据集的平均值,就可以消除数据大小的差异。标准差除以平均值得到的值叫作变异系数。公式:变异系数=标准差σ/平均值μ所以,我们通常用变异系数来比较不同数据集的波动大小。4.标准分:对数据进行归一化处理标准分主要是用来计算出某个数值在数据中的相对位置的,标准分又叫Z分数或是标准化值。公式:假设有一个数据集X1、X2、X3平均值=μ标准差=σ例如我们想计算出X2的标准分标准分Z2=(X2-μ)/σ标准分=某个数值距离平均值多少个标准差,通过标准分我们就可以知道这个数值与平均值的相对接近程度。标准分=0,数值=平均值标准分>0,数值>平均值标准分<0,数值<平均值5.熟悉数据集学习好分析策略,我们才能知道该如何对数据进行分析,但是前提是要对数据集的数据信息的字段含义熟悉了解。根据昨天对来源于天池平台的母婴用品电商数据查看,表1表2有以下字段信息:表1购买商品数据:用户ID 、商品编号、商品种类(一级和二级)、商品属性、购买数量、购买时间表2婴儿信息:用户ID 、出生日期、性别你想从该数据集中分析哪些业务问题?从标准含有的数据信息中,我们可以尝试分析每个季度哪些婴儿商品卖得最好的有哪些。你觉得哪些字段有助于解决这些问题?商品编号、商品种类、购买数量、购买时间这4大字段可以解决以上问题。你想从该数据集中得到哪些描述统计信息?从该数据集中,我想通过平均值算出产品的平均价格,通过四分位数算出不同类别产品的销量整体情况,通过标准差计算出某一年时间里不同类别产品各总销量的稳定性,通过标准分计算出每个产品销量与整体平均销量的的差距。
描述性统计分析,就是用来概括、描述数据整体状况以及数据各特征的统计方法。对于定量数据,比如量表评分(非常不满意,不满意,非常满意等)或者身高体重的值,可以通过描述性分析,计算数据的集中性特征和波动性特征等。在数据分析的时候,一般首先要对数据进行描述性分析,再选择进一步分析的分析方法。常见指标分类描述性统计指标大致可分为三类:集中趋势指标、离散趋势指标、分布形态指标。集中趋势指标集中趋势指标用于测量集中趋势,或者数据分布中心值的统计量,常用的集中趋势指标有平均数、中位数、众数等。平均值通常用于描述样本的整体态度情况众数用于描述样本的集中趋势点,代表多数的水平情况中位数用于表示样本的中间态度情况常见指标离散趋势指标离散趋势是反映资料的变异程度,常用指标有极差、四分位间距、方差与标准差、变异系数。极差:最简单的离散趋势,即分布中最大值和最小值之间的差。方差与标准差:方差越大,数据的波动越大;方差越小,数据的波动就越小。标准差是使用最为广泛的一种离散趋势量,即显示一批数据的值与均值之间平均差异的离散趋势量。25分位数是指有25%的点低于该值;类似还有中位数代表有50%的点低于该值,75分位数代表有75%的点低于该值。IQR(四分位距):等于75分位数 – 25分位数,表示数据集中情况。变异系数(CV):变异系数大,说明数据的离散程度也大;变异系数小,说明数据的离散程度也小。当进行两个或多个变量离散程度的比较时,如果单位和(或)平均数不同时,就需采用变异系数来比较。分布形态指标峰度和偏度:在数据分析中,通常需要用偏度和峰度两个指标来判断数据正态性情况,峰度的绝对值越大,说明数据越陡峭,峰度的绝对值大于3,意味着数据严重不正态。同时偏度的绝对值越大,说明数据偏斜程度越高,偏度的绝对值大于3,意味着严重不正态(可通过正态图查看数据正态性情况)。深入指标描述统计可在SPSSAU中操作其他说明在研究变量描述性分析时,应首先将反项题进行反向处理,使用SPSSAU中的数据编码功能反向赋值。描述性分析通常可用于查看数据是否有异常(最小值或最大值查看),比如出现-2,-3等异常等。除了使用描述性分析外,也可使用SPSSAU提供的箱盒图直观展示数据分布情况。通常情况下,描述性分析以变量为单位进行即可,如果希望进行更深入的分析,那么需要对变量对应的各个题项进行统计平均数。如果某个变量特别重要而且仅由少数题项表示,则可以通过计算各项的频数和百分比进行深入分析说明。对于问卷题项中的排序题,也可以使用描述性分析,通过计算平均值描述、分析选项的排名情况。描述分析与频率分析的不同之处在于:描述分析提供的统计量仅适用于连续变量,频率分析既可用于分析连续变量,也可用于分析定类变量。
之前我们讨论了在启动数据分析之前应该采取的步骤:数据准备。本期直接进入正题,学习如何提出正确的问题(使用数据科学)以及获得最佳答案(进行数据分析)。首先准备好数据,然后从以下几个方面提出相关问题:发生了什么事?(描述性分析)为什么会这样?(诊断分析)如果...会发生什么?(预测分析)我们该怎么做?(规范分析)今天的分享将会着重于描述性分析和诊断分析,他们是大数据价值链的支柱,对于开发支持预测和规范分析的更高级算法至关重要。什么是描述性分析?描述性分析是挖掘历史数据以识别特定结果之间的共同模式和相关性的分析方法。这是将大量数据提炼为简洁易懂的洞察力的最佳方式。最简单的例子就是仪表盘,它能显示一个公司各部门运转的状态,我们可以直接从仪表盘看出问题和异常。但是,它不会显示发生这种情况的确切原因 ,这就要靠诊断算法来寻找答案了。描述性算法有助于在数据中建立不同的关系。例如,将不同的潜在客户分组。因此,预测算法会尝试预测消费者群体的可能行为。描述性分析模型有助于该算法估计不同消费者和不同产品之间的关系。在实际营销中使用描述性分析的案例:估计意图针对人们在社交平台上的行为方式,社交媒体监控工具和情绪分析工具可以帮助确定潜在用户是谁。比如,XXX在朋友圈晒了一张打高尔夫的照片。部署高级受众群细分从消息后台查看那些内容最容易与他们产生共鸣,他们是否会对某种类型的广告做出回应。比如,发布一则数码产品新品发布的消息,会引起更多人留言或分享。什么是诊断分析?诊断分析的目标是了解事情发生的原因。例如,为什么今年我在市场推广投入得更多,而销售额却比去年低了10%。而在人们的操作数据中显示,当他们把商品放进购物车之后,并没有下单,数据显示,当他们在填写收货地址和付款细节的时候,退出率是最高的。因此,这中间出了一些问题:表单未正确加载运费太高了表格太长了,移动不方便没有足够的付款方式可供选择在实际营销中使用诊断分析的案例发现并回应异常情况,是什么导致网站搜索流量突然下降而没有任何明显的原因?诊断工具可以告诉您内部页面之间存在不平衡的链接分布,并导致暴跌。优化营销信息和销售优惠,诊断分析可以确定不同数据点之间的因果关系。数据显示,包邮等促销优惠导致平均订单量增加15%,而如果不包邮,退出率将提高25%。发现新的数据故事,否则可能错过了藏匿数据中的一堆隐藏关系。例如,将消费者对不同地区的相同广告活动的反应进行比较,发现来自曼彻斯特的18-25岁的女性旅行者更有可能选择“西班牙阳光明媚、豪华的度假胜地”,而不是“经济实惠的波西米亚寄宿家庭”。你还可以诊断网站的设计与功能布局如何影响搜索排名等。
描述性统计分析对调查总体所有变量的有关数据进行统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布以及一些基本的统计图形。下面介绍一些常用统计描述指标。一、分类变量的常用描述指标频数:在一组依大小顺序排列的测量值中,当按一定的组距将其分组时出现在各组内的测量值的数目,分类变量的频数即落在各类别中的数据个数。累计频数:累积频数就是将各类别的频数逐级累加起来。百分比:表示一个数是另一个数的百分之几,也叫百分率或百分数。百分比通常采用符号“%”(百分号)来表示。累计百分比:累积百分比就是将各类别的百分比逐级累加起来。二、连续变量的描述分析1、制作频数表操作步骤:确定组数,组数K=1+lgn/lg2(n为数据的个数),这只是一个经验公式,实际应用时,可根据数据的多少和特点及分析的要求,参考这一标准灵活确定组数;确定组距,组距=(最大值-最小值)÷组数,为便于计算,组距通常取5或10的倍数;确定各组段的上下限。 2、描述集中趋势的指标:均数:指在一组数据中所有数据之和再除以数据的个数。几何均数:用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平(适用范围:对数正态分布数据或等比数据)。简单几何平均数的计算公式:加权几何平均数的计算公式:中位数:又称中点数,中值。中位数是按顺序排列的一组数据中居于中间位置的数,即在这组数据中,有一半的数据比他大,有一半的数据比他小。计算公式:众数:在一组数据中,出现次数最多的数据;是样本观测值在频数表中频数最多的那一组的组中值。百分位数:如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。第25百分位数又称第一个四分位数,常用Q1表示;第50百分位数(中位数)又称第二个四分位数,常用Q2表示;第75百分位数又称第三个四分位数,常用Q3表示。3、描述离散趋势的指标:全距:又称极差,即数据中最大值与最小值之间的差距。它能体现一组数据波动的范围。极差越大,离散程度越大,反之,离散程度越小。方差:用于衡量每一个变量(观察值)与总体均数之间的差异。总体方差计算公式:样本方差计算公式:标准差:是总体各单位标准值与其平均数离差平方的算术平均数的平方根。它反映组内个体间的离散程度,一个较大的标准差,代表大部分数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。计算公式就是方差的算术平方根。变异系数:当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,此时可以用变异系数来进行比较,变异系数的计算公式为:变异系数 C·V =( 标准差 S / 平均值Mean )× 100%,在进行数据统计分析时,如果变异系数大于15%,则要考虑该数据可能不正常,应该剔除。。4、描述分布形状的指标:针对某种分布进行进一步的特征描述,主要是用于正态分布。偏度系数:描述分布偏离对称性程度的一个特征数。当分布左右对称时,偏度系数为0。当偏度系数大于0时,即重尾在右侧时,该分布为右偏。当偏度系数小于0时,即重尾在左侧时,该分布左偏。样本偏度的计算公式:公式1:公式2:注:大多数软件中使用G1来计算样本偏度,如Excel、Spass、Python。峰度系数:用来反映频数分布曲线顶端尖峭或扁平程度的指标。在正态分布情况下,峰度系数值是3(但是SPSS等软件中将正态分布峰度值定为0,是因为已经减去3,这样比较起来方便),峰度系数>3,呈现尖峭峰形态,说明观察量更集中,有比正态分布更短的尾部;峰度系数<3,呈现平阔峰形态,说明观测量不那么集中,有比正态分布更长的尾部。样本峰度计算公式:公式1:公式2:注:大多数软件中使用G2来计算样本偏度,如Excel、Spass、Python。
最近加入一个数据挖掘学习小组,热心的群主制定了一个详细的每周学习计划,分为统计学和机器学习两大知识点。学习完要提交作业,以文章输出或者其它方式都行,现在开始第一周的统计学相关知识输出啦,先上一张思维导图。前面部分以文字为主,涉及到的数学公式放在最后。01—一、集中趋势集中趋势反映各数据向其中心值靠拢或聚集的程度。㈠ 众数数据集合中出现次数最多的变量值被称为众数。众数可能有一个,也可能有多个。如果所有数据出现的次数都一样,那么这组数据没有众数。在高斯分布(正态分布)中,众数位于峰值,和平均数、中位数相同。一般情况下,只有在数据量比较大的情况下,众数才有意义。㈡ 中位数将一组数据按大小顺序排列后,处于中间位置上的变量值就是中位数。计算中位数有两种情况,根据数据个数而定。中位数是一个位置代表值,同样不受极端值的影响。㈢ 分位数也许大家都比较熟悉十分位数,百分位数,但对于四分位数就没那么了解了吧。四分位数是一组数据排序后处于25%(下四分位数)和75%(上四分位数)位置上的值。箱线图就是利用数据中的五个统计量:最小值、上四分位数、中位数、下四分位数与最大值来描述数据的一种图。额,箱线图经常应用在识别检测异常值方面。㈣ 平均数平均数也称为均值,是一组数据相加后除以数据个数得到的结果。它是集中趋势的最主要测度值。对未经分组数据计算的平均数称为简单平均数,也就是常说的平均数。每年都会看到说哪个城市的平均薪资出炉了,大PK之类的,不看不知道,一看就扎心!对分组数据计算的平均数称为加权平均数。几何平均数是n个变量值乘积的n次方根,主要用于计算平均比率。对于具有单峰分布的大多数数据而言,众数、中位数和平均数之间具有以下的关系:如果数据是对称分布,众数=中位数=平均数如果数据是左偏分布,说明数据存在极小值,必然拉动平均数向极小值一方靠。而众数和中位数是位置代表值,不受极值的影响,所以平均数< 中位数< 众数如果数据是右偏分布,说明数据存在极大值,必然拉动平均数向极大值一方靠,则众数< 中位数 < 平均数均值、中位数、众数优缺点:02—二、离散程度离散程度反映各数据远离其中心值的趋势。㈠ 数值型数据① 极差极差:一组数据的最大值和最小值之差,也称全距,用R表示。极差容易受极端值的影响,不能反映出中间数据的分散情况。② 平均差平均差也称平均绝对离差、平均偏差,它是各变量值与其平均数离差绝对值的平均数。平均差以平均数为中心,反映了每个数据与平均数的平均差异程度。为了避免离差之和等于零而无法计算平均差这个问题,因此采取了绝对值,以离差的绝对值来表示总离差。③ 方差方差是各变量值与其平均数离差平方的平均数。④ 标准差标准差是方差的平方根。★ 注意 ★方差和标准差能较好地反映出数据的离散程度,是应用最广的离散程度的测度值。样本方差是用样本数据个数减1后去除离差平方和,其中样本数据个数减1,即n-1称为自由度。与方差不同的是,标准差是有量纲的,它与变量值的计量单位相同,其实际意义比方差清楚。因此,在对实际问题进行分析时会更多地使用标准差。㈡ 顺序数据四分位差四分位差 IQR(四分位距):是上四分位数和下四分位数之差。它反映了中间50%的数据的离散程度,其数值越小,说明中间的数据越集中,反之则越分散。同样不受极值的影响。㈢ 分类数据异众比率异众比率指非众数组的频数占总频数的比例。主要用于衡量众数对一组数据的代表程度。异众比率越大说明众数的代表性越差,越小说明众数的代表性越好。㈣ 相对离散程度离散系数离散系数又称变异系数, 它是一组数据的标准差与其相应的平均数之比。离散系数主要用于比较不同样本数据的离散程度。离散系数大,说明数据的离散程度越大,离散系数小,说明数据的离散程度也小。03—三、分布的形状㈠ 偏态系数偏态是对数据分布对称性的测度。测度偏态的统计量是偏态系数,用SK表示。SK的值越大,表示偏斜的程度越大。如果一组数据的分布是对称的,离差三次方(具体公式看后面的图)后正负离差可以相互抵消,则SK等于0。如果分布是非对称的,偏态系数有正有负。SK为正值时,表示正离差值较大,判断为正偏或右偏。SK为负值时,表示负离差值较大,判断为负偏或左偏。㈡ 峰态系数峰态是对数据分布平峰或尖峰程度的测度。测度峰态的统计量是峰态系数,用K表示。峰态通常是相对于标准正态分布而言的:如果一组数据服从标准正态分布,则峰态系数的值为0;如果峰态系数的值明显不等于0,则表明分布比正态分布更平或更尖,称为平峰分布或尖峰分布。K大于0时为尖峰分布,数据分布更集中;小于0时为扁平分布,数据的分布越分散。相关的数学公式如下:(手写一遍,加深记忆,哈哈...)方差、离散系数、偏态系数和峰态系数:自认为是自己写得很用心的一篇文章啦,嘻嘻!总体来说,上述知识也算消化了大半了,比较不熟悉的是后面的偏态系数和峰态系数,有待后面继续深入探索。下周开始结合Python进行描述性统计实践。在看的小伙伴们如果觉得对你有用的话点个在看,发现有不对的地方欢迎留言指正,谢谢~
来源:募格课堂 作者:晨星《孙子·谋攻》有句名言“知己知彼,百战不殆。”SCI论文写好后也要遵循这个规律,首先要了解自己的SCI论文属于那种类型,以便确定投稿哪家国际期刊。一般SCI的类型主要有以下几种:01、Research Articles(研究性论文)Research Articles是指对理论或基础研究有贡献的论文。这种论文可以从研究内容的角度分类,分为纯基础研究和应用性基础研究两大类。Research Articles应提供研究工作中收集的重要新信息,报告新颖且精心设计的研究,并提出完整的研究成果。Research Articles的研究结论不应基于未发表的工作或初步的数据摘要。作为完整的Research Articles,论文涉及到以前的研究或先例应被了解清楚,完整地引用。需要注意的是,纯基础研究可能没有涉及到科技秘密的问题,但应用性基础研究虽然只属于基础研究,但是涉及到一个新的理论,一个技术突破,或者一个重大发明,可能在某些当前的理论研究中涉及到一些敏感的课题。因此,在向国际期刊提交这种性质的论文时,研究成果是否合适公开发表必须考虑。Research Articles篇幅较长,例如有SCI期刊规定这种类型论文要有:250 words abstract,包括含义说明、简洁的单句摘要,可将整体的研究发现和/或结论提炼为更广大的普通科学工作者快速了解;5,000–6,000 words of text;50 references;7 figures and/or tables;其他要求,如10 x 7.5英寸的片概图,400dpi以上的插图等等。Research Articles是我们主要撰写的论文类型。02、Rapid Communication(快讯)Rapid Communication是一般具有重大价值影响力大的简短文章,其研究表明其有异常价值和影响的意义、及时性或新颖性。如果作者手头上有时效性很强的研究结果,但来不及完善成Research Article,又很想赶紧发表,那么整理成Communications,可以投稿试一试。Research Articles篇幅较短,例如有SCI期刊规定这种类型论文要有:150 word abstract;5,000–2500 words of text;20 references;3 figures and/or tables;其他要求。03、Review article(综述)Review article即“综述”,不涵盖原始研究,而是将针对特定主题的许多不同文章的结果,积累成对该领域最新技术的连贯叙述。Review article由在特定领域具有专长的科研人员,在对某科技研究领域的文献进行广泛通过大量的阅读和理解的积累,对该领域研究成果的综合和思考后,完成文献的整理和提取。Review article并非一般的“背景描述”,需要对该领域研究成果的思考。并不是所有的Review article都是想写就能写的,一般Review article作者都是学术领头人(权威专家)。不请自来的Review article作者会被要求投稿前,先将投稿建议书发到期刊编辑部,同意投稿后才能动手写Review article去投稿。SCI期刊一般采用邀稿形式,由编辑委员会邀请各个行业大牛撰写,可以促进学科研究的进一步进展。完整型的Review article一般篇幅较长,要求参考文件比较多,例如有SCI期刊规定这种类型论文要有:250 word abstract;6,000-7,000words of text;75 references;7 figures and/or tables;其他要求。对应于完整型的Review article,还有一种迷你型Review article,篇幅较短,例如有SCI期刊规定这种类型论文要有:250 word abstract;2,500-3,000words of text;50 references;4 figures and/or tables;其他要求。04、Perspectives article(观点)Perspectives article为当前关注的主题提供了一种观点,旨在激发从事科研工作的读者感兴趣的主题的思想。它们很短而且很关键。Research Articles篇幅较短,例如有SCI期刊规定这种类型论文要有:200 word abstract;1,200–1,500 words of text;25 references;3 figures and/or tables;其他要求。05、Letters to the Editor(致编辑的信)Letters to the Editor是读者针对某篇感兴趣的论文写的读后感。一般由期刊邀请读者来信(有时效性),并将由总编辑审阅。如果发现符合该杂志的出版标准(有关广泛主题的重要意义和兴趣的评论,适合内容的篇幅),则该来信可发送给原始文章的作者,并可能发送给其他作者感兴趣的各方与Letters to the Editor在同一期杂志上发表。06、Hypothesis articleHypothesis article即假说类文章,这类的文章往往入门容易,写好很难。恩格斯曾说过“只要自然科学在思维着,它的发展形式就是假说”,魏格纳的大陆漂移假说和爱因斯坦的《相对论》都是著名的科学假说。如果作者目前手头没有像样的研究数据和结果,“不做实验写文章”的论文就这种类型。但是Hypothesis article的写作要求很高。除了要求高水平的假设能力外,对大量的数据阅读整理能力和归纳提取能力的要求也是极高的。07、Letters(通讯)Letters(也称为通讯,不要与Letters to the Editor混淆)是对当前重要研究成果的简短描述,通常被有关科研人员快速跟踪以立即撰写发表,因为它们被认为是紧急的,具备很高的。08、Research notes(研究笔记)Research notes是对当前研究结果的简短描述,被认为比Letters更为紧迫或重要。Research notes一般是焦点研究。09、Supplemental articles(补充论文)Supplemental articles是补充论文,通常包含大量的表格数据。这些数据是当前研究的结果,可能是数十页或数百页的数据,其中大部分是数值数据。现在,某些期刊仅以在线电子资料方式在Internet上发布此数据。10、Other articles有时候期刊还会刊出一些比较少见的文章类型,如Meeting Abstracts(会议摘要),Editorial Material(编辑材料), Monograph chapter(专题论文),Monograph review(专题综述),Report chapter(专题报告),Report review(综述报告)等等。另外,医学专业的SCI论文还有几种重要的类型。例如:11、Case Series(病例系列报道)Case Series主要描述一群相同诊断的病人或经历过相同治疗的患者的某一段时间的医学经历,包括主要子类型为Case Report,还有Cross-Sectional Studies, Surveillance Studies, Ecological Correlational Studies等。因为Case Series不是随机对照设计(RCT),所以它与其他描述性研究一样,不能用于证明一项临床治疗有效还是无效。描述性研究Case Series有很多用处,包括改进疾病诊断,分析结果趋势,分析药物经济,注册表数据结果,寻找可能病因线索等。因此,看到Case Series的文章,只是给出了一个可能性,并不是结论,需要其他的设计的实验(RCT)来证明。Case Series行文短小精悍、言简意赅。例如以Case Series的Case Report为例,文章字数都在600-1000之间,有前言、病例摘要和讨论三部分组成,一般不列参考文献。期刊版也可以仅有病例摘要和讨论两部分。(1)前言:通常用1-2句话简要说明为什么要报告该病例;(2)病例摘要:是个案报告的主要部分,为经过加工整理的病例摘要:包括病例来源,时间,发病情况,临床特点,患者的特异性表现,特征性的症状、体征及检查结果,必要时可增加病例或影像学图片、形态学照片,但应避免能分辨患者体貌特征的照片(隐私权),本院或外院的诊断、治疗经过,以及资料的结果。(3)讨论:是病例介绍的一个延伸(带有一定逻辑推理性),简单介绍疾病的背景(尤其是罕见病)。应突出罕见病的特色,着重讨论诊断、鉴别诊断和确认该病的依据、本病例的新特点和新发现。如要报告资料方面,则着重总结成功治愈的经验或失败的教训,提醒临床医生注意有意义但易忽略的问题;如希望说明误诊方面的问题,则应着重分析误诊的原因。Case Report以罕见或有特殊意义的临床资料为主;诊断标准应描述准确。切忌照搬原始病例,避免使用各种非客观性、推测性的语句。Case Series的文章一般会列举类似的临床病例。例数不定,少者4-10例,多者数百例。12、Meta-Analysis(荟萃分析)所谓Meta-Analysis是指对研究的研究,可以翻译为元分析、后设分析、整合分析、荟萃分析等。一项研究只能得出有限的结论,时间、地点、数据、方法,其中任何一项不同都可能引起结论的不同。Meta-analysis即把所有这些发表出来的研究进行整合、量化、比较、统计分析等,以得出更精确的结论,深入探究某事物或现象的全貌和本质。Meta-Analysis涉及对文献的收集和整合,因此它属于文献回顾的一种;与普通文献回顾不同的是,它对过去的研究进行评估和判定。也就是说Meta-Analysis照道理一般难度应比Review大,因为需要进行研究论证。其实当初Meta-Analysis的出现是为了解决各种学术争端,如果所有的研究者都指向一个结果,那Meta-Analysis存在的必要就没了。当然,目前学术界对Meta-Analysis的功能有一些争议,有国内学术文献机构直接把Meta-Analysis归为Review article。唐韩愈的《南山》诗中有所谓“团辞试提挈,挂一念万漏。”,上面只罗列了一些笔者知道的SCI论文类型,欢迎读者朋友们在留言里查遗补漏。
比较管理既要从事共时性研究,更要从事历时性研究科学研究不但要描述可观察的世界,而且要描述隐藏在现象背后的世界,描述可观察的世界可称为“描述性研究”,相应地,描述隐藏在现象背后的世界,可称为“解释性研究”翻阅国内20世纪90年代出版的一些《比较管理学》教材。有意无意地把比较管理视为描述性研究,许多内容停留在浅层次的比较或表面的现象堆积上,致使比较管理研究偏离了其发展的轨道,失去了其应有的学术魅力。不难说明,这种简单描述方法根本无法完成比较管理的使命。当然,不是说不需要描述性研究,描述性研究是比较管理研究的重要组成部分,是解释性研究的重要基础和前提。比如大内的《Z理论》一书,有约一半篇幅在讲述从A到Z的应用问题。但大内本人很清楚很谨慎,他提醒人们这些步骤只是供人们讨论的焦点,而不是提高管理水平的“食谱”。波普尔指出,科学的目的是:为所有那些给我们印象深刻而又需要解释的东西找到令人满意的解释。所谓的一种解释(或是一种因果性的解释)就是指组用来描述有待解释的事态的陈述,而其他的解释性的陈述,则构成有关“解释”这个词的更狭义的“解释”。在社会科学各领域,比较研究似乎呈现出一种共性,即解释性研究。凡是比较,而且能够在学术上有所创见者,在已有的事例中基本上都没超出解释性这一范围。比如,亨廷顿的比较研究著作《变化社会的政治秩序》及其文明冲突论,汤因比的皇皇巨著《历史研究》。这种比较基本上都属于认知和解释,这种研究很值得管理学界借鉴,比较管理的硏究对象是管理行为背后的管理运作机理,要比较不同情境下管理活动的异同,我们就必须回答“是什么因素决定了不同情境下管理活动的异同”。比较管理学虽然也要回答是什么。换句话说,比较管理既要从事共时性研究,更要从事历时性研究。因此,比较管理学在本质上应该属于解释性科学,唯有如此,比较管理研究才能对管理演化过程中复杂的多元因果关系做出深刻的理解和说明。这样,我们对管理模式进行解释性分析,就可能超越“存在”(共时性),进人“过程”(历时性),通过历史的时间长河分析其遗传机制、变异机制和选择机制等,从而对一国管理模式今天为何这样而不是那样做出有说服力的解释。这种解释既有利于人们发现一国管理模式中的特殊经验,也有利于提炼出管理模式中的普适规律。事实上,比较管理学从来没有离开解释和认知,大内的《Z理论》、戴尔的《伟大的组织者》、钱德勒的《战略与结构》,这些经典的比较研究的成功之作,也都没超出解释性这一学科的性质现实生活中还有一类研究,这类研究属于“改造世界”性质的研究。我们姑且把这类研究称为“对策性研究”我们不是不需要对策性研究,问题是,对策性研究的建议往往应该发生在理论解释之后。有许多学者常常不是先找准问题,寻找问题产生的原因,不去探究问题背后的社会环境与结构,不去运用恰当的理论工具和方法对问题进行深度剖析和解释,而是匆匆忙忙地提建议、做对策。这种所谓的“研究”不应该提倡,我们可以看到一些学者的有益提醒:较管理学的研究,不在于找出可以引进或者模仿的楷模,而在于通过比较认识不同模式之间的差异形成机制,提供引进或者模仿的可能性论证。学术研究从来都是解释性的,而不是对策性的。由比较研究直接进入对策研究,很可能不是比较管理学的真正出路。但是,对策研究往往具有现实的吸引力,这值得学界警惕。那么比较管理研究可以引人演化分析范式吗?解释性学科必须拥有解释性的分析范式与之匹配,我们才有可能对事物之间纷繁复杂的关系做出深刻的解释和说明。我们刚刚提及共时性与历时性这一对术语。共时性和历时性相对,是索绪尔提出的对系统的观察研究的两个不同的方向。共时性的一切牵涉到对事物的静态的方面,历时性的一切牵涉到事物的进化方面。共时性方法可以归结为对事物收集整理后在一个时点上进行截面式研究,历时性方法则随着时间从上往下探究或从下往上追溯。在比较管理研究领域,颇为流行的仍然是“文化分析范式”。比如,人们仍然习惯于采用霍夫斯泰德的文化五维度理论去解读管理问题,特别是跨文化管理问题。这是必要的,但又具有明显的局限性。五维度分析可以解释管理活动中的“文化”现象,可以进行一些管理活动的共时性分析,但在回答诸如一种管理模式的发生、发展和演化这类复杂的问题时,“文化分析范式”就显得有些苍白或空泛。在研究这类复杂问题时,进化生物学和演化经济学为我们提供了科学的分析方法,特别是一些历时性分析的方法。遗憾的是,迄今为止,这种科学方法没有进入比较管理学家的视野。与功能生物学研究分子工程不同,进化生物学研究物种的演化。遗传、变异和选择是进化生物学的核心范畴。演化经济学同进化生物学一样,始终在提问上致力于历史起源和过程解释,主张比较的、历史的、回溯的方法。霍奇逊指出,生物学将一般性原则(例如分类法和进化规律)与关于特定机制和现象的特殊研究相结合。这就是为什么社会科学必须更接近生物学而不是物理学的一个原因。比较管理学之所以在相当长的一段时间里几乎成为一门“沉闷的科学”一个方面的原因就是由于其缺乏有效的分析工具去解释是什么因素导致不同情境的管理特性的形成,这些因素是如何演化从而影响到管理特性的改变。现在,我们欣喜地发现,演化分析方法完全可能“激活”比较管理学,使其从“沉闷”转入“活跃”,在科学研究中,隐喻或类比是一种常见的方法。它是从其他学科引入新的认识论并与本学科杂交产生理论创新的重要途径。它既可以帮助当事人从本专业已“锁定”的思维模式中挣脱出来,又有助于新范式的内核的形成。演化理论中许多重要范畴和理论,对比较管理研究具有非常重要的价值。比如,演化经济学强调事物发生的初始条件与结构、注重分析主体能动性与制度结构的关系、致力于寻找事物发展的基因及发展过程中惯例的特殊作用,以及历史的偶然性和不确定性、累积因果效应、个体群思维方法、路径依赖、互补性等重要理论范畴具有深邃的学术内涵和极大的学术魅力。可以预见,引人演化分析方法会大幅度地改写比较管理学,甚至可能引发一场管理学方法上的革命。
编辑导读:单纯的数字是没有灵魂的,但是数据分析却可以洞察出数据背后业务的规律。因此,数据分析是商业活动中重要的一项工作。本文将围绕数据分析的四个层次展开介绍,希望对你有帮助。一、引言我通常把数据理解为业务的另一个他,单纯的数字是没有灵魂的,而背后的业务却是鲜活的。商业数据分析的核心是洞察数据背后业务的规律,本质是数据赋能。我相信从事商业分析的小伙伴们都听说过,数据分析的三个层次:描述性分析、诊断性分析和预测性分析。著名的咨询公司Gartner在2013年总结、提炼出了一套数据分析的框架,如上图所示,他们把数据分析分成了四个层次,除了刚才说到的三个之外,还有一个处方性分析。诊断出业务的问题之后,还需要结合实际情况,给出运营策略去改善它。我更倾向把处方性分析合到诊断性分析里,因为分析和运营是需要结合在一起的。当然,这些小细节影响并不大。如今在公司0-1的参与项目,先前很多的方法论正好有机会都经历一遍,所以想结合这些框架梳理一下自己的想法,欢迎大家留言或者进群交流。本篇文章先跟大家介绍一下数据分析的四个层次:描述性分析、诊断性分析、预测性分析、处方性分析。二、描述性分析:发生了什么?通过一些核心指标的数据和前后对比,告诉业务方(或者老板)目前业务的现状是怎样的。比如常见的流量、转化率、收入、成本等等这些指标。往往这些指标是比较宏观和概括性的,对比完就能对整体的情况有个认知。在公司里,大家经常会用Tableau做日报/周报,其实主要承担的就是描述性的汇报。关于描述性分析,需要思考几个问题,才能让整个日/周报概括而又具体:1. 关注哪些业务首先要思考在日/周报中展示哪些业务,可以提供几个维度去参考:老板关心哪些业务?想了解什么信息?部门负责哪些业务,重点是在推哪些?可以沿着这个方向去确定要展示的业务。2. 用哪些指标,如何衡量变好/变坏善用对比(环比/同比)、趋势等比较方式,不能只展示指标的数据,还要能直观的反映出目前状态是好还是坏。3. 沉淀分析框架当然,描述性汇报也需要沉淀诊断性分析的框架。比如说,在周报中展示转化率指标,不论涨跌,大家肯定会在意是怎么回事。而要分析这事儿,就可以按渠道进行拆解,分成APP端、PC端、小程序端的转化率等等,分别关注一下。所以对于该指标的框架性拆解分析,就可以沉淀在描述性汇报中,这样指标的涨跌就立马能定位到哪个环节的问题。定位出问题环节后,再细一步的原因就需要去找对应的业务方咨询了。三、诊断性分析:为什么会发生?业务变好/变坏了,除了知道这个结果外,我们还需要通过数据进一步了解为什么会这样。在诊断性分析中,就需要去分析业务结果和很多因素的相关性。当然,怎么能较快速地定位到分析哪些因素和结果的关系,要基于对业务的理解。可以大家一起头脑风暴分析业务数据,也可以去调研,或者深度访谈一些业务关键角色,让他们给一些输入,我们才可能知道从哪些维度去分析数据更合理。1. 定性分析若分析的仅是一个特征与结果的相关性,则可以通过画二者的二维散点图进行分析,通过图形描述,可以初步且直观判断二者的存在何种相关关系:正相关、负相关、无关;如果相关的话,是线性相关还是非线性相关(抛物线、指数等)。2. 定量分析我们通过散点图可以定性的判断两者是否具有相关性。定量上,我们可以通过回归对他们对关系做出精确的描述。若结果为连续值,则应用的模型为回归模型,包括:1)一元线性回归若仅有一个特征与结果相关,并且其是呈线性关系的,则可以进行一元线性回归,即建立回归模型y=a+bx计算出截距a和斜率b,x为特征(自变量),y为结果(因变量)。2)多元线性回归在实际业务中,仅单个特征与结果相关的情况是不多见的,大多数都是多特征共同作用导致的结果。若多个特征无多重共线性,且与结果呈线性关系,则可以进行多元线性回归分析,建立回归模型y=a+b1x1+b2x2+…+bnxn。3)非线性回归如果回归模型的因变量是自变量的一次以上函数形式,回归规律在图形上表现为形态各异的各种曲线,称为非线性回归。常见的非线性回归模型包括:双曲线模型、幂函数模型、指数函数模型、对数函数模型、多项式模型等。四、预测性分析:后续可能会发生什么?预测性分析就是提前评估后续可能会发生什么?在工作中的场景,经常就是利用现有数据进行测算,评估业务接下来的发展。比如提前需要测算业务年度成本、年度目标、未来收益的大小等等。五、处方性分析:该怎么做?这步的分析通常是接着诊断性分析的,在我们找到了业务变化背后的原因后,我们就需要去想一些策略去改善它。首先是要定位出业务原因。在诊断性分析这一步,我们在数据上找到了影响结果的因素,这时候就需要去在业务层面上思考原因。比如说,为了促进用户转化,我们发放了优惠券,但是后续发现券的使用很少,单量也没有上升,这是数据维度的原因。那业务层面的呢?为什么用户都不用优惠券呢:这时候有些猜测的原因可以通过数据来论证,而有些原因就需要去调研用户;如果是优惠券的位置不明显,我们就需要在产品上调整;如果是优惠券的额度太小,我们就需要去适当调整优惠力度。只有准确找到了业务原因,我们才能用策略根本性地解决它。我发现很多时候,业务原因的定位是缺失的,往往我们在发现数据原因后,我们就开始思考运营策略了,指向性也非常强,激励(抓手)+数据维度的改变,这种做法是比较粗糙的。可能短期内有效果,但是一旦你激励停止,业务还是会回到原来的状态。核心还是要找到业务改变的关键动作以及可以运营的业务场景,不能盲目的抓结果!#专栏作家#人人都是产品经理专栏作家,《数据产品经理修炼手册》作者。本文原创发布于人人都是产品经理。未经许可,禁止转载题图来自Unsplash,基于CC0协议
是新朋友吗?记得先点蓝字关注我哦~关注免费获取资料1、可免费领取数据相关的面试题+面试攻略。2、可免费领取<中台>相关的资料;3、进交流群,认识更多的数据小伙伴。01引言我通常把数据理解为业务的另一个他,单纯的数字是没有灵魂的,而背后的业务却是鲜活的。商业数据分析的核心是洞察数据背后业务的规律,本质是数据赋能。我相信从事商业分析的小伙伴们都听说过,数据分析的三个层次:描述性分析、诊断性分析和预测性分析。著名的咨询公司Gartner在2013年总结、提炼出了一套数据分析的框架,如上图所示,他们把数据分析分成了四个层次,除了刚才说到的三个之外,还有一个处方性分析。诊断出业务的问题之后,还需要结合实际情况,给出运营策略去改善它。我更倾向把处方性分析合到诊断性分析里,因为分析和运营是需要结合在一起的。当然,这些小细节影响并不大。如今在公司0-1的参与项目,先前很多的方法论正好有机会都经历一遍,所以想结合这些框架梳理一下自己的想法,欢迎大家留言或者进群交流。本篇文章先跟大家介绍一下数据分析的四个层次:描述性分析、诊断性分析、预测性分析、处方性分析。02描述性分析 - 发生了什么?通过一些核心指标的数据和前后对比,告诉业务方(或者老板)目前业务的现状是怎样的。比如常见的流量、转化率、收入、成本等等这些指标。往往这些指标是比较宏观和概括性的,对比完就能对整体的情况有个认知。在公司里,大家经常会用Tableau做日报/周报,其实主要承担的就是描述性的汇报。关于描述性分析,需要思考几个问题,才能让整个日/周报概括而又具体:1、关注哪些业务?首先要思考在日/周报中展示哪些业务,可以提供几个维度去参考:1、老板关心哪些业务?想了解什么信息?2、部门负责哪些业务,重点是在推哪些?可以沿着这个方向去确定要展示的业务。2、用哪些指标,如何衡量变好/变坏?善用对比(环比/同比)、趋势等比较方式,不能只展示指标的数据,还要能直观的反映出目前状态是好还是坏。3、沉淀分析框架。当然,描述性汇报也需要沉淀诊断性分析的框架。比如说,在周报中展示转化率指标,不论涨跌,大家肯定会在意是怎么回事。而要分析这事儿,就可以按渠道进行拆解,分成app端、pc端、小程序端的转化率等等,分别关注一下。所以对于该指标的框架性拆解分析,就可以沉淀在描述性汇报中,这样指标的涨跌就立马能定位到哪个环节的问题。定位出问题环节后,再细一步的原因就需要去找对应的业务方咨询了。03诊断性分析 - 为什么会发生?业务变好/变坏了,除了知道这个结果外,我们还需要通过数据进一步的了解为什么会这样。在诊断性分析中,就需要去分析业务结果和很多因素的相关性,当然,怎么能较快速的定位到分析哪些因素和结果的关系,要基于对业务的理解。可以大家一起头脑风暴分析业务数据,也可以去调研,或者深度访谈一些业务关键角色,让他们给一些输入,我们才可能知道从哪些维度去分析数据更合理。1、定性分析若分析的仅是一个特征与结果的相关性,则可以通过画二者的二维散点图进行分析,通过图形描述,可以初步且直观判断二者的存在何种相关关系:正相关、负相关、无关;如果相关的话,是线性相关还是非线性相关(抛物线、指数等)。2、定量分析我们通过散点图可以定性的判断两者是否具有相关性。定量上,我们可以通过回归对他们对关系做出精确的描述。若结果为连续值,则应用的模型为回归模型,包括:a. 一元线性回归若仅有一个特征与结果相关,并且其是呈线性关系的,则可以进行一元线性回归,即建立回归模型y=a+bx计算出截距a和斜率b,x为特征(自变量),y为结果(因变量);b. 多元线性回归在实际业务中,仅单个特征与结果相关的情况是不多见的,大多数都是多特征共同作用导致的结果。若多个特征无多重共线性,且与结果呈线性关系,则可以进行多元线性回归分析,建立回归模型y=a+b1x1+b2x2+...+bnxn;c. 非线性回归如果回归模型的因变量是自变量的一次以上函数形式,回归规律在图形上表现为形态各异的各种曲线,称为非线性回归。常见的非线性回归模型包括:双曲线模型、幂函数模型、指数函数模型、对数函数模型、多项式模型等;04预测性分析 - 后续可能会发生什么?预测性分析就是提前评估后续可能会发生什么?在工作中的场景,经常就是利用现有数据进行测算,评估业务接下来的发展。比如提前需要测算业务年度成本、年度目标、未来收益的大小等等。05处方性分析 - 该怎么做?这步的分析通常是接着诊断性分析的,在我们找到了业务变化背后的原因后,我们就需要去想一些策略去改善它。首先是要定位出业务原因。在诊断性分析这一步,我们在数据上找到了影响结果的因素,这时候就需要去在业务层面上思考原因;比如说,为了促进用户转化,我们发放了优惠券,但是后续发现券的使用很少,单量也没有上升,这是数据维度的原因。那业务层面的呢?为什么用户都不用优惠券呢:用户没有发现优惠券的位置;用户觉得优惠券额度小;这时候有些猜测的原因可以通过数据来论证,而有些原因就需要去调研用户;如果是优惠券的位置不明显,我们就需要在产品上调整;如果是优惠券的额度太小,我们就需要去适当调整优惠力度。只有准确的找到了业务原因,我们才能用策略根本性的解决它。我发现很多时候,业务原因的定位是缺失的,往往我们在发现数据原因后,我们就开始思考运营策略了,指向性也非常的强,激励(抓手)+数据维度的改变。这种做法是比较粗糙的。可能短期内有效果,但是一旦你激励停止,业务还是会回到原来的状态。核心还是要找到业务改变的关键动作以及可以运营的业务场景,不能盲目的抓结果!一个数据人的自留地是一个助力数据人成长的大家庭,帮助对数据感兴趣的伙伴们明确学习方向、精准提升技能。我知道你在看哟