欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
数据处理如何做?请收好这份实用指南固不待物

数据处理如何做?请收好这份实用指南

总会有小伙伴问起“数据是都收集好了,可是应该怎么处理呢?”“对数据中的重复值、异常值有什么好的处理方法?”“我的问卷里既有多选题、填空题,也有量表数据。这些题目都应该怎么处理数据,怎么分析?”不用慌!关于数据处理的各种疑问都可以在这篇文章里找到答案。01 数据处理思路数据格式首先,正确的数据格式是让我们可以开始处理和分析数据的第一步。不论是什么类型的数据均需要按照数据分析的规范格式进行整理。常见的数据格式通常就是一行代表一个样本,如果有100个样本即为100行;一列代表一个属性。除此之外,针对不同的分析方法,所需的数据格式也有所不同,这里就不再展开说明。多份问卷如何放在一起分析?当有多份数据想要一起进行分析,比如给两个班级做了同一份考题,2个班的测试结果分别记录在不同的表格里,如果想要进行比较分析,那么就需要将数据合并整理在一个EXCEL工作表里面。解决方法:数据合并有两种合并方式,第一种是按行叠加;第二种是按列叠加。按行叠加如果有两份数据‘按行叠加’,此时需要‘新增加列’,用于标识到底是哪一份数据。比如,分别对两组研究对象进行相同的测试,然后想使用t检验对比两次结果的差异。“按行叠加”通常在做‘方差分析’、‘t检验’或‘交叉卡方分析’时会使用到。按列叠加如果有两份数据‘按列叠加’,也就是直接将两份数据的列数合并。此时,需要注意一定要有个唯一标识的号码,比如姓名、编号、身份证号等。数据标签、数据编码和生成变量在整理好数据后,即可上传数据。接下来就可以对数据进行一些基本处理,包括设置数据标签、调整数据编码和生成变量等。设置数据标签数据标签是用来标识数值的具体含义。如上图中,明显不知道1.0、2.0这具体是什么意思。只有设置了标签后,才会展示出选项的具体含义。数据编码除了数据标签外,有时候还可能需要进行数据编码处理,比如希望对年龄分成3个组别,分别是20以下,20~30,30以上。此时就需要使用数据编码处理,如下图:操作路径:[数据处理]—[数据编码]功能生成变量很多时候还需要对数据生成变量处理,比如说对体重或身高求对数处理,或者对数据开根号,取绝对值,求和,求平均值处理等,那么可使用SPSSAU生成变量功能。操作路径:[数据处理]—[生成变量]功能异常值、缺失值问题在完成了基本的数据处理后,针对数据中的异常值、缺失值等问题也应及时进行处理。异常值处理在分析数据时,如果发现一个值与其他值相差甚远,这类值称为 “异常值”。比如,正常男性成年人的身高是介于1.5~2米之间,但是如果出现一个数据为1.2米。这种数据在分析之前需要进行处理,如把该值设置为null值。操作路径:[数据处理]—[异常值]功能缺失值处理有时候因填写人疏忽少填了几道题,或者题目设置产生了缺失值,此时需要对缺失值进行处理。对于某一个问题或题目,如果缺失值不多不影响结果可以不处理如果某个问题出现较多缺失值,可使用填补功能,代替缺失值操作路径:[数据处理]—[异常值]功能无效样本处理同时一份问卷中,如果填写者填写的都是完全相同的答案,说明该样本没有认真填写,此时可将该样本设置为无效样本。操作路径:[数据处理]—[无效样本]功能完成以上的数据处理工作,基本上就可以开始分析了。如果在分析的过程中,又发现什么其他问题,可以随时使用[数据处理]模块的处理功能进行调整。02 量表题处理针对量表题数据的处理,还有以下几个常见问题:反向题如何处理?在量表题设计时,有时会插入一些反向题,针对这些反向设计的题目,需要先进行反向编码处理才可以分析。如五级量表,则可编码处理为:1->5,2->4,3->3,4->2,5->1。操作路径:[数据处理]—[数据编码]功能不同尺度的量表数据如何统一?一般情况下不同尺度的量表,不需要特别处理。比如设计了四个维度的量表,而各维度使用的量表尺度不一致其实也不受影响,如做信度效度按每个维度分别进行分析即可。如果涉及数值上的比较,像是对同一组对象前后两年进行测量,去年使用了1-5分的量表,而今年改用1-7分量表收集数据。想要比较两年数据的结果,这直接比较数值显然不太对,此时可以考虑对数据做区间化处理,把1-5分数据转换成1-7分。操作步骤:选择[生成变量]—[区间化],将区间最小值设置1,区间最大值设为7,点击[确认处理],即可将所有数据转化成1-7分。03 非量表题处理非量表题有很多种,针对每种类型的题目所需的数据格式、数据处理方式也不太一样。之前SPSSAU已推送过详细的文字教程,这里就不再展开说明,大家可以点击下方链接,查看视频教程及往期文章。① 多选题② 排序题③ 非规则化数据如何整理?以上就是本次分享的内容啦。如果你还有什么数据处理上的疑难问题没有解决,可以在评论区告诉我们。

恶可而言

如何用常用的分析模型进行数据分析?

编辑导语:互联网的流量红利褪去之后,流量获取变得越来越难,数据的重要性也逐渐凸显。本文作者介绍了两个常用的模型分析:漏斗模型、AARRR模型,并且分析了如何利用这两个分析模型做好数据分析。一、为什么我们要做数据分析?现在都在说互联网下半场,什么意思就是流量红利慢慢褪去,已经不是早前互联网时代刚兴起的时候,网民覆盖少遍地黄金,只要一个产品做出来,甚至不需要运营就有大量用户进来,而现在流量全部集中在一些头部的企业,再去分抢流量,势必头破血流。据国泰证券研究,电商行业获客成本不断攀升,2020年已经高到离谱,阿里平均获客成本704,拼多多163,京东392。在获客成本如此之高的情况下,精细化的数据运营成为不得不走的一条路径。二、两个常用的模型分析1. 漏斗模型最早是由一位美国的知名广告人提出的,叫做消费者购买漏斗。是对流程中各个环节的分解和量化,帮助我们找到问题并优化。像电商网站漏斗模型是最常用,当然了其他的产品也是可以的,只需要定义出核心的流程。拿电商举例:漏斗模型一般都可以做,但是你接下来是如何发现问题,如何提出假设,如何优化才是关键,这里面的核心是需要把握每个环节的流量情况,最好通过指标比例公式来拆解,不然只是一个访问的量是无法定位问题的。1)首页流量我们一般从外部渠道拉来更多的流量引流到首页,所以流量的质量很重要,我们一般衡量页面的流量指标一般通过这几个:页面UV点击率、停留时间、跳出率,一般用户对页面感兴趣会有更多的点击行为,点击行为就会产生点击率、跳转率等。页面点击率=页面点击次数/UV:点击率越高说明页面的内容能够吸引用户。当然我们也可以看某个功能点击率占大盘的点击率,来看首页的不同功能的流量情况;跳出率=通过首页进入就离开的次数/首页访问的总次数:跳出率越高,如果排除页面的问题,说明页面的内容对于用户期望相差甚远,,如果是低停留时间,高跳出率、低点击率说明页面内容质量不高或者渠道的用户质量不高。2)搜索商品—商品列表页搜索是站内流量的主要来源,承担着站内商品检索和商品布局分类的关键作用,一般围绕搜索的指标量有如下:详情页作为转化的关键路径,是用户决策的关键,所以一般分析详情页的质量可以从平均停留时间、加车数、立即购买数等:平均停留时长=页面停留总时长/UV数,一般关系着页面的综合因素:商品图片、价格、优惠信息、详情页、评价等;加入购物车数/立即购买数:说明意向客户的数量,如果意向数量不高只能说明,商品没有达到用户的需求,需要考虑页面综合因素。4)生成订单提交订单一般是转化的最后一环,目的是为了让用户尽快付款,这个里面衡量的指标有全局指标成交转化率、有效订单的转化率:成交转化率=提交订单用户数/页面UV,如果低,说明提交订单意愿不强烈,可能确认订单页布局有问题,可能地址填写不友好,可能价格优惠不明显等;有效订单转化率=实际付款订单数/生成订单数,如果不高,是否是支付页的问题,如果不是支付页问题那么可以使用push/短信催付。5)小结衡量一个页面“是否引发兴趣”的指标有:点击率、跳出率、停留时长,下滑加载到底部的比例。一般人的视线从上往下,最先看到头部信息,如果头部信息不够吸引,一般会进行滑动加载,可以看到达底部的比例和停留时长。2. AARRR模型这个模型是又称为海盗模型,最早是由麦克卢尔提出的,分别代表了产品生命周期的5个阶段,一般根据产品不同的阶段聚焦不同的目标而不是眉毛胡子一把抓。MVP阶段(初创阶段):定量分析,这个阶段用户量少,如果没有专业的分析工具,通过用户、亲朋好友的反馈也是可以帮我们做分析;增长阶段:留存分析,核心关注用户忠诚度,如果用户对你的产品没兴趣无法留下来,就算你拉再多的用户也是徒劳。我们都说用户就像水池的水,进水口就是新用户,水池的容量就是留存活跃用户,出水口就是流失用户,如果流失速度大于用户注册速度,迟早水池里的水就流尽了;营收阶段:渠道分析、交易额、LTV。接下我们重点看看获取和留存阶段如何做:1)获取:目的看渠道的质量我们一般会从各个渠道(搜索引擎,市场投放、新自媒体、线下活动、外部合作渠道等)去获取用户,我们一般会关注各个渠道的用户数量和质量,数量我们看拉新用户数,质量我们看通常的转化情况,收益我们看交易金额。一般我们基于“注册数”、“付费转化率”等两个维度建立渠道四象限分析,一般可以用excel散点图可以做成矩阵图,通过算出各个维度的平均值,之后通过横纵坐标交叉即可(有兴趣可以了解一下矩阵图的方法)。第一象限:注册量和转化率较高的渠道加大投放;第二象限:注册量较低,但是转化较高,可以和渠道方沟通曝光的策略等;第三象限:注册量低,转化也低,可以考虑废弃;第四象限:注册量高但是转化低,需要优化转化流程,或是考虑投放的用户不精准。如果企业本身有外部广告投放等,成本投入较大,基于(成本和用户转化率进行四象限分析),目的是筛选出低成本高转化的渠道。2)留存:留存分析留存是衡量产品价值的最有效的指标,一般分析留存我们都是基于如下的留存表进行分析,话虽如此,但是真的面对这张图的时候,很多人还是傻眼,不知道如何下手。友盟—留存分析表一般留存曲线分为三部分:震荡期、选择期、平稳期。但是有些产品几乎是没有平稳期,那么这样的产品就很危险,说明留存持续下降,迟早水池里的水在某一天都流干。一般在震荡、选择期关注新用户留存、平稳期关注功能留存,那如果留存偏低我们应该如何分析呢?3)新用户留存分析我们一般定义新用户留存,起始行为首次启动,留存行为可以定义再次启动或者是付费(业务上定义什么样的行为为留存即可),如果留存偏低我们就需要进行对比分析,一般留存和业务功能息息相关,可以将功能模块抽离出来对比分析(这个不仅是新用户留存分析可以用,在平稳期我们关注功能留存也很有用)。从这个里面就能很清楚看到,功能3带来的留存率相比其他更高,可以引导我们做出如下决策:新用户的留存方向从次日留存率看,其实围绕这功能3和4;功能模块的优化方向:首先要明确核心功能模块,如果核心功能模块留存不高,那就说明这个环节是需要重点优化的。小结:新用户的激活时间越快越好,最好是当天就能完成核心行为;用户流失前,尽量引导他们使用留存较高的功能,让他们体会产品的核心价值。4)用户分组分析分析留存用户和流失用户的区别,分析两类用户的特征,特别是流失用户,方法可以基于上面的漏斗模型,定义核心的路径,然后分析用户行为,具体流失于哪一步,然后针对性的分析。针对已流失的用户也可以寻求用户反馈,具体倾听他们的想法,因为什么原因没有满足你们的需求离开了,如果没有很好的第三方的分析工具花很长时间在分析上其实是典型的“捡了芝麻丢了瓜的行为”,直接寻求用户的反馈,也不失为一个有效的方式,快速决策验证比全局分析效率更快,因为用户真的不喜欢你的产品可以说短时间就卸载了。后面的章节我会具体讲解一下用户分析和解决问题的结构分析,希望能在数据分析之路上能帮助你们。本文由 @琛琛 原创发布于人人都是产品经理,未经许可,禁止转载题图来自 Unsplash,基于 CC0 协议

达道之塞

问卷调查如何做好?这3个步骤教你

经常有新手商家会这样抱怨:「我新建了一个网站来展示我的网店,我看了网店后台的数据,浏览的用户不少,但是下单的客户却没有几个。」你有没有这样的烦恼呢?想知道怎样提高客户的满意度并且进一步提高购买率吗?这里就不得不提到一个获取用户满意度的方法——问卷调查!那么它的具体步骤是什么呢?一起来看看吧!问卷调查获取用户满意度的3个步骤:明晰目标,设计有针对性的问卷做好问卷设计有效的投放迭代网上问卷一、明确目标,设计有针对性的问卷对于问卷调查来说,很重要的一点就是弄清问卷调查的目标,问卷设计不是随心而为的,在开始制作问卷范本之前,先问问自己一个关键的问题:这份问卷需要解决什么问题?究竟是为了了解你的网店的用户体验情况,还是为了了解用户的动机,还是为了获悉用户对于某个功能的使用习惯?不同的目标有不同的问卷设计方法,并且问卷中所有设计的问题都应该围绕这个中心目标来展开,不能偏离主题。在明确了问卷调查设计的目标之后,相应的就知道了我们问卷调查设计的研究思路、问卷调查范围、目标受访者、目标样本量、样本采集方式、访问时长等等。在这个过程中,我们还需要补充一下自己的背景知识。比如说为了调查用户对于某个产品的消费方式,那么我们至少需要了解一下行业的相关情况,或者自己观察使用一下竞品。因为只有在自己了解行业背景、使用对比过相关场景、了解用户的基础反馈情况之后,才能够在问卷调查设计中更加详细。上线了建站案例,禁止转载 明确了目标问题之后,你就可以快速建立一个问卷。互联网时代,问卷调查一般都是线上的方式,这样易于传播,也易于用户填写。如果你不知道怎么做问卷或排版设计,那么可以直接用「上线了」建立一个自己的网站,再添加“自定义表单”版块,这样就能快速在网站上添加一个问卷调查。二、做好问卷设计问卷设计是问卷调查中非常重要的一个环节,一般来说问卷的基础格式会分为三个部分:标题、引导语和问题列表。标题部分,我们需要让客户明白这个问卷的主题是什么。引导语部分,我们首先可以介绍一下填写这份问卷大概会花费用户多长时间,这样可以让用户有一个心理预估;其次我们可以用大概30-50个字说明一下问卷调查的目的和意义。比如说【本问卷大概包含xx个问题,会花费您大约xx时间,您的耐心填写会给我们的调查带来巨大的意义】等等这类的。问题列表部分,习惯上一般设计20个左右的问题,会在开头设计3-4个问题收集一下用户的基础资料,核心问题约16-17个,这样既保证了提问的详尽,同时也控制了用户答题的时间成本。要注意的是,设计问题时有3 DO和2 DON'T DODO:问题设定由浅入深,逐步增加难度和深度尽量设定更多封闭性问题,少设定开放性问题表述要准确可量化,减少不明确性DON'T DO问题不要有引导性和倾向性不要有偏激性的语句三、有效的投放迭代网上问卷问卷调查范本设计好之后(一般是网上问卷),不要一来就正式投放,要进行测试投放。比如我们可以要求自己的朋友、家人先填写一下问卷,再修改一下他们反馈的问题。比如措辞或者题目删减,顺便估算一下填写问卷回答的时间。其次,为了区别出用户是否认真回答了问题,我们可以采用一些小技巧来测量置信度和可信度,比如: 设计一个问题,在问卷前后出现,表达的意思差不多,看看用户是否选择类似选项;对比用户回答问题的时间,是否在参考范围之内;间隔一周再投放给有相同特征的人群,看看两次问卷结果差异性大不大。……在制作问卷、网上问卷投放、收集完网上问卷之后,就可以进行用户的满意度分析啦。这样我们就能够快速收集到用户的满意度调查。需要注意的是,问卷调查不一定是一成不变的,根据企业发展、用户群体变化,你可以定期更改问卷调查内容,从而获得新的用户信息。好啦,以上就是本篇全部内容啦,赶快参照上面的内容,开始你的问卷设计吧!

霸王拳

数据运用调研 助力精准治理

为校核数据分析结果和找到数据分析方向,11月24日上午,贵州省高速公路管理局路政管理科组织了贵阳高速公路管理处、贵州省高速公路联网收费管理中心、贵州省高速公路监控与应急处置中心(以下简称“省监控中心”)、贵州高速集团贵阳营运中心及入口称重检测设备软、硬件维护等有关单位到秦祺收费站、牛郎关收费站、贵阳北收费站开展数据运用实地调研和座谈交流。在调研和交流现场,省监控中心汇报了2020年入口称重检测设备数据分析内容,各单位就报告中入口称重检测设备超过认定标准5%仍标记为检测通过、出现车货总重大于200吨、设备使用天数仅几天等异常情况进行了现场查看和原因分析,就解决异常情况展开了讨论和交流。下一步,省高管局将按照工作要求,加强对入口称重检测异常数据的监测,找准异常数据原因,强化对设备运维实施精准管理和监管。了解数据情况座谈会现场责任编辑 韦景全【来源:省高管局】声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 邮箱地址:newmedia@xxcb.cn

龙须沟

怎样通过数据分析,做出精准的决策

1、什么是综合评估模型综合评估模型是对一个复杂系统的多个指标进行总体评价的方法。它是一种把定性评估转化为定量评估的方法,能够解决比较模糊的,难以量化的问题。2、建立综合评估模型的步骤:要建立一个综合评估模型需要以下几个步骤:确定评估指标确定指标权重确定指标评价等级和范围建立综合评估模型评估分析结果这样一套步骤当中,每一步都是相互关联的,下面我们来举个生活当中例子,带大家完整走一遍这个流程。假如你是一个女生,现在有三个男性朋友同时在追求你,三个人看起来都差不多,一时间无法抉择,这个场景下,选择谁就成了一个复杂的系统,我们需要用多个指标来对候选人做总体评价。1、确定评估指标根据找男朋友可能会考虑的因素,我们选定如下指标:身高颜值才华财富水平所处地域2、确定指标权重指标权重是各个指标的重要程度,加起来需要等于1 ,我们首先需要知道,以上五个指标的优先级。这个优先级往往是决策者自己制定的,如果不知道怎么选,我可以教大家一个方法,首先在5个指标当中选取一个你最看重的,然后再在剩余4个指标里面挑一个最看重的,以此类推... 。有的人最喜欢好看的,那么颜值的权重就更高,有的人喜欢有才的,那么才华的权重就更高,这样我们就得到了各个指标的权重:3、确定指标评价等级和范围我们做评估模型的目的,就是要把定性的指标转化为定量的指标,比如说才华?怎样才算有才华需要我们来制定等级。比如说,我们简单地认为,才华和学历相关:身高:颜值:财富:个人总资产地域:假设是广东人,找男朋友的偏向于本地人,那么:4、建立综合评估模型根据我们前面所列的各项指标及评估标准,把三个候选人的信息填进去:再把定性指标,转化为定量指标:5、评估分析结果我们把每个候选人各项得分,乘以该项指标的权重,就可以得到每个候选人的总体得分:最终可以看到,A候选人的总体得分最高。除此生活中还有很多需要做决策的场景能够用到综合评估模型:找工作:综合评估薪酬待遇、行业发展、成长机会等;买房子:考虑地理位置、配套设置、学区规划、物业服务等;...另外,不同岗位的同学在做决策的过程中,都有需要用到综合评估模型的机会,如:推广方面:在推广渠道的选择方面,需要考虑多种因素,比如在微博、B站、小红书三个渠道做选择,需要评估渠道与品牌的匹配程度、用户活跃度、用户购买力、话题传播力等;采购方面:可用此模型综合评价供应商,包括报价、行业知名度、配合度、服务水平等;人事方面:招聘过程中,如果几个候选人同样出自大厂,都能胜任目标工作岗位,那么也可以用综合评估模型决策,综合评价候选人的专业能力、沟通能力、学习能力等;...3、案例分析案例背景:你是一家互联网公司的HR,过去一年数据分析团队的工作做得非常出色,现在要给团队中的10个人发放年终奖,规定是20%的人一等奖,30%的人二等奖,50%的人三等奖,请予以分配各等级年终奖给对应获奖人员。确定评估指标:首先整个团队做得非常好,不一定每一个人做得非常好。评估一个员工的工作水平可以从以下角度出发:首先,每个数据分析师都有一个或多个对口支持的业务部门,对应业务部门的表现一定程度上可以反映数据分析师的工作成果,所以对口部门的综合表现可作为一项指标;其次,考察数据分析师的工作能力有一些行业通用维度,包括:基本数据支持能力:取数的正确率和效率可作为基本指标;问题分析能力:能否独立的分析出业务部门的问题,可作为一项指标;方案策划与执行能力:分析出问题之后,能否得出有效的解决方案并推进执行,可作为一项指标;分析维度开发能力:能否有效的开创出新的分析方法和理论,供其它分析人员使用,可作为一项指标;另外,在通用性的指标方面,可选择出勤率和加班时长来作为评估指标。所以,经过以上分析,我们可选择的评估指标如下:业务部门表现取数正确率取数效率独立分析方案策划执行分析维度开发出勤率加班时长确定指标权重:业务部门的数据表现受多种因素影响,数据分析的影响相对小一些,所以分配10%的权重;数据支持(取数正确率、取数效率)、独立分析、方案策划执行,三个指标对于数据分析师来说,难度逐渐增加,所以设置:10%、25%、35%,分析维度开发属于附加部分,权重设置10%;通用性指标方面:出勤率和加班时长各设置5%;总体指标权重如下:确定指标评价等级和范围:建立综合评估模型:将10各个数据分析部门员工的数据填入评估表当中:把各项指标表现转化为分数:评估分析结果:最终可以看到总得分,我们按照得分排名:最终根据得分,我们可以分配年终奖金:以上就是本节综合评估模型的视频讲解部分。接下来,大家点击继续,根据图文内容进行实操练习。

数据分析师如何提高工作效率

编辑导语:在我们的日常工作中,提高工作效率是每个岗位都需要实现的,在工作中,面对比较凌乱的事情时,首先我们需要梳理清楚,按重要级进行开展;本文作者分享了关于数据分析师在日常生活中怎么提高工作效率,我们一起来了解一下。身边是否遇见过这样的大佬,无论工作多忙,总能坚持每周看完一本书,坚持更新文章到相关平台。作为普通人的我们不禁感慨:大佬真的是很优秀。其实除了感慨,我们也可以尝试做好时间管理,提高自己的效率,慢慢和大佬们靠近。作为分析师的我们,每天的工作状态可能就是开会+取数+写报告,如果是对接业务的分析师,那么可能大部分时间都是在取数中,那如何提高工作效率呢?01 任务梳理,进行优先级规划拿出一张纸,列出你这个月要做的几个大事情,分拆到当周是做哪几件,分拆到当天是做哪几件,先不用列优先级顺序,想到什么就写在上面。可以用纸质的笔记本(个人比较喜欢用纸笔记录的方式,可随时记录添加),或者是在线的记事本、印象笔记等等工具,利于任务管理。任务梳理完后,对任务进行优先级排序:重要紧急、重要不紧急、紧急不重要、不紧急不重要。第一象限重要且紧急建议20%时间,需要立即去做。比如老板突然让你拆解某个异动,比较着急,或者是当天立马要提交的某个分析报告,这类deadline很紧迫的事情。不过很多时候重要且紧急的事情都是来自于重要不紧急事情的拖延,也就是说这种压力是我们自己强加给自己的。如果当天重要且紧急的事情超过50%,那么整个人都是非常紧绷的状态,短期内还好,长期这样人容易陷入奔溃的状态。第二象限重要不紧急建议70%时间,有计划去做。比如下个月要完成某个垂类增长方向的机会盘点,比较重要很有价值但是暂时不紧急,却是最值得投资时间去做的事情;这些事情虽然看起来不紧急,但是假如现在不重视它,它随时都会发展成重要而且紧急的事情。第三象限紧急不重要建议10%时间。比如临时开个会议(非自己主R,只是同步方),这类事情如果较多,也会造成我们的忙碌;因为它紧急,需要放弃正在做的第二象限重要但是不紧急的事情,会打乱我们工作节奏,甚至很多时候我们将其归类为第一象限。但其实仔细分析来看,是不重要的事情,只需要告知结果就好,完全没有必要花费半个小时以及一个小时参加整个会议。第四象限不重要不紧急不建议花费时间,如推销电话等、不相关会议等,不能在这个象限里投入自己太多的精力,能不做尽量不做。如果工作中的需求来源都是比较临时的,无法在工作前一周或者前一天规划好,那么就先把常规要做的事情安排好时间,预留新的需求沟通时间。在新需求进来的时候,需要充分和业务方沟通对齐,充分了解需求的背景,识别是否是伪需求,是否需要排到任务清单中(不是所有的业务方在提需求的时候都想的很清楚,如果我们不反向push他们想清楚,那么很容易之后需求会持续迭代好几次)。总之做计划要根据自己实际的工作节奏来,适合自己的才是最好的。02 专注高效的完成每一个任务清单假设在任务清单上面的事情都已经是不能砍掉的需求,且我们已经排好优先级了,那就开始专注高效的完成每一个任务清单。这里需要注意的是如果有些任务是比较大的项目,需要多天完成的,那么可以尝试着将大任务拆解成一个个的子任务。比如做一个小龙虾品类的行业调研,我们会拆分成这几个步骤:梳理相关的行研调研渠道;各个渠道信息搜集;搜集后的信息梳理汇总;撰写报告。在完成任务的过程中,很多人喜欢一会做这个,一会做那个,且可能拿起手机一刷一个小时就没有了,不专注导致的结果就是效率很低。比较推荐的做法是开始做之前,预估下需要的时间,然后在完成任务期间计算实际消耗的时间,可以用手机自带计时器或者aTimeLogger这种专门的记录时间开销的软件,不过比较推荐用带有番茄钟工作法(一个番茄钟:学习25分钟 休息5分钟)的APP,如专注清单、Todo清单,当开始一个番茄钟时,注意力就自然而然的集中起来。如果在做事情过程中突然来了其他的事情打扰,建议先记下这个临时来的事情,但是不要打扰正在进行的事情(除非是非常非常紧急);当完成某一项任务的时候,可以在任务清单上面点击划掉。03 复盘任务时间消耗定期的根据自己的任务清单及时间消耗情况进行复盘(如上提到的很多软件都有复盘功能),可能会发现自己真实工作的时间远比自己想象中的少。同时看看自己每天的时间消耗在哪类事情上比较多,为什么紧急的事情变得多,有无可优化的方法,某项任务为什么实际消耗的时间比计划的要多等,利于优化自己的计划以及更加精准的掌握自己完成某一类任务的时间。坚信日拱一卒无有尽,功不唐捐终入海。04 其他小建议说到时间管理每个人的理解和节奏肯定是不一样的,我现在比较喜欢的方式是纸笔进行任务汇总及优先级排列+Todo清单APP拆解任务+Todo清单APP 记录每个任务的完成+周维度复盘。除了上面这些流程化的任务管理,还有以下一些建议给大家:重复的东西看板化、产品化:如果是经常遇到的某一类问题,比如某个指标的异动分析,那么完成可以总结拆解的分析框架,将其产品化下来;短期看总结推产品化可能会花费一些时间,但是长期来看产品化是性价比很高的事情。文档管理:周维度可以整理下电脑的文件夹,清楚的知道什么东西放在哪里,至少别人问你某个东西的时候在5s内知道在哪里去找,30s内能找到。自己的1小时很值钱:珍惜自己的时间,有自己的每一分钟都很贵的意识,认同并接受自己的1个小时很贵,相信就不会浪费太多的时间做无意义的事情了。识别高效率的时间:找到自己最高效的时间,在高效的时间做难的事情,如果是高效率的时间做不用动脑的事情是不是有点太浪费。尝试多线程:在路上、在跑步时完全可以听一些书籍、新闻,拓宽下自己知识面。增强抗干扰能力:如果周围的环境太嘈杂,心还能静下来是最好的,但是如果静不下来那可以戴一个降噪耳机,通过物理降噪的方式来寻找安静的环境,提升自己的专注力。学会情绪管理:对接业务方可能会遇到不好沟通的,尽可能将注意力都放在任务本身上,放到人身上容易影响到情绪,从而影响工作效率,要知道将目标完成才是最重要的。适当做减法:很多事情是可做可不做的,要懂得舍弃一些,专注于做重要的事情,毕竟人的精力是有限的,不要老做捡芝麻丢西瓜之类的事情。#专栏作家#人人都是产品经理专栏作家,《数据产品经理修炼手册》作者。本文原创发布于人人都是产品经理。未经许可,禁止转载题图来自Unsplash,基于CC0协议。

鬼魅灯

数据分析——建模分析基本流程

编辑导语:在我们的日常工作中,很多时候都会用到数据分析的方式,其中建模分析的方法也是数据分析的一种类型,对于各种数值能够清晰明了的呈现;本文作者分享了关于数据分析中的建模分析的基本流程,我们一起来了解一下。日常的数据分析工作中,除了基本的拆解法、对比法做分析外,也经常需要用到模型的方法来做预测或者分类,这里会介绍建模分析的基本流程及常见处理方法。01 描述性分析在拿到数据后,不能着急立刻开始清洗数据或者模型训练,而是先了解数据(除建模分析外,其他的数据开发也要做这一步),这样才能避免后期的踩坑,否则十有八九是要复工的。那“了解数据”这一环节,具体要了解哪些东西呢?了解各个特征的业务含义和计算逻辑各个特征的分布是否符合预期特征之间的相关性如何,是否符合基本逻辑特征和目标值的相关性如何,是否符合基本逻辑在相关性分析这里,数值型变量之间可通过计算相关系数或者画图呈现;数值型变量和分类变量可通过箱线图呈现关系。02 缺失值处理在初步了解数据后,需要做一些数据预处理的行为。第一步就是对缺失值处理,一般根据样本量多少以及缺失比例,来判断是“宁缺毋滥”的删除,还是缺失值填充。具体处理的思路可以是这样的:统计计算样本量n,各个特征数据缺失率y,各样本数据特征缺失率x;特征缺失率x比较高的样本一般都建议删除;因为多个特征都缺失,填补也比较困难,即使填补信息偏差也会比较大。如果某特征缺失率y比较大,则删除此特征;如果特征缺失率低且样本量比较大的话,可删除特征缺失的样本;如果样本量少不可删除,则对缺失值做填充。缺失值填充的方法有:根据特征的众数、中位数或者平均值来填充;也可以对样本做分类,根据所在类的平均值众数等填充;通过回归法来做样本填充,缺失值作为因变量,其他特征做自变量去预测;还可通过比较复杂的方法,如多重插补法。03 异常数据处理处理完缺失值后,需要做异常数据处理。之前介绍过一篇异常数据处理的方法,数据分析-异常数据识别;这篇介绍了多种适应不同场景下的异常数据识别方法。04 数据标准化处理对于很多模型,如线性回归、逻辑回归、Kmeans聚类等,需要计算不同特征的系数,或者计算样本距离。这种情况下,如果不同特征的数值量级差的特别大,会严重影响系数和距离的计算,甚至这种计算都会失去意义;所以在建模前必须要做的就是要去量纲,做标准化处理。当然有些模型是不需要做数据标准化处理的,如决策树、随机森林、朴素贝叶斯等。当前最常用的数据标准化处理方法有:1)最小—最大规范化(x-min)/(max-min),将其规范到[0,1]之间2)z值规范化(x-均值)/标准差,将其规范为均值为0,标准差为1;如果这种情况,受离群点影响比较大的话,可以用中位数代替均值,用绝对标准差代替标准差。还需要注意的是,如果样本分布非常有偏的话,可以先做box-cox变换,将其往正态分布变换后再标准化。05 特征选择在做完基本的数据清洗以及特征变换后,需要做的是特征选择,一般做特征选择的原因是:某些特征存在多重共线性,这种情况对线性回归和逻辑回归影响比较大;特征太多,有些特征增加了模型复杂性却与模型无关,不能全部入模,需要筛选出价值更高的特征。1. 多重共线性是什么:模型的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响:1)影响模型的稳定性,而且影响模型的解释。举个例子,假设消费支出=0.3*收入,这样可能的模型输出的是:消费支出+收入1.3*收入1.6*收入-消费支出同样的数值输出,不同的公式计算,会非常模型解释和稳定性的。2)线性回归模型,会导致最小二乘估计无法计算系数,即使可计算系数方差也很大,即1)中提到的不稳定。怎么识别:计算特征之间的相关系数,对于相关性特别高的特征,根据业务需要保留有代表性的特征;方差膨胀因子(VIF)。计算每个特征被其他特征拟合的情况,如特征j,被其他特征线性拟合的决定系数为R2;通常拟合越好,决定系数就越大且最大可达到1。所以,当方差膨胀因子过大,说明此特征存在多重共线性。一般大于10会认为有比较强的多重共线性问题。怎么解决:删除共线性强的特征;线性回归模型的话,可采用岭回归的估算方式解决。2. 特征太多不同的模型和应用场景下特征筛选方式不同:对于二分类问题来说,筛选逻辑是:筛选出对二分类结果区分度比较高的特征;可以通过计算IV(information value)值的大小来筛选,一般IV值越大,此特征对二分类结果更有区分度。对于回归预测问题,主要针对多元线性回归。筛选特征的方法有:特征子集选择法、正则化法以及降维法。1)特征子集选择法特征子集选择法有向前逐步选择法和向后逐步选择法:a)向前逐步选择具体方法就是从0个特征开始,一个一个逐步从剩余特征中添加使得模型拟合误差最小的特征,在添加过程中得到模型拟合最优的特征组合。b)向后逐步选择和向前逐步选择类似,只是反过来了,让所有特征入模,再一步一步剔除效果不好的特征,从而达到最优。2)正则化压缩无意义特征的系数比较好用的方法是lasso。一般的线形回归我们只会希望它的误差平方和最小,但是lasso的目标函数在原有目标函数后面加了一项系数惩罚项。这样让目标函数最小,可以实现无意义特征的系数为0,从而实现特征选择。3)PCA降维这个是将原有有一定线性关系的特征线形组合成新的相互独立的特征,所以不适合原有特征已经相互独立的情况。以上就是数据建模的前期准备流程,做完这些内容就可以开始模型训练,对模型结果进行预测分析啦,而这部分则是不同模型会有不同的具体处理方法。总之,模型训练前的数据分析、数据清洗以及特征选择非常重要,甚至他们是决定建模是否成功的关键因素,所以这部分工作一定要做细做准确。感谢阅读,以上就是我要分享的内容~本文由 @须臾即永恒 原创发布于人人都是产品经理。未经许可,禁止转载题图来自Unsplash,基于CC0协议

其名必极

做项目时,如何摆脱数据框架和调研表象的束缚?赵旭州来教你

数据思维是什么?在当前大数据和调研报告的情况下,我们为何还需要一个优秀的决策者?因为市场决定明天,数据只告诉你今天和昨天。因此我们需要一个超越数据框架和研究概况的决策者,但是大多数项目已经犹豫了三年还未做出决策,大多数的项目通过数据得出来的结论做出的决策都是失败的。这种失败表现在决策或发现未来不在数据中得到的,因此他陷入了数据思维的陷阱。战略决策看什么?(一)时代趋势——诸葛亮为出茅庐先定天下一个好的决策者看到的是一个时间段的趋势,而不是目前活跃的小信息。例如,一位曾担任教授的前老板认为市场研究在调查数据中没有发言权,觉得市场调研没有上调研就没有发言权,他想靠数据来说话,但是数据说的是今天和昨天统计出来的东西,没有告诉他明天会怎样。他去了该机构,做了800页的研究,还不知道明天会怎样。所以人家给你的是原材料,让你自己做决定,后面的趋势,当它达不到境界和格局的时候,不敢帮你决定。你觉得诸葛亮未出茅庐,先定三分天下,他跑了几个市场,做了几个研究,统计了多少小数点,其实不需要。因为人有逻辑综合感知处理能力,那叫预见性、对风险捕捉和不确定性的感知,那个在于“势”。(二)符合常理和逻辑——尊重人性有一次我见到了一篇报告——中国80后择偶调研。中国年轻人女孩子择偶的第一标准是“男人要孝顺。”第二条是“男人责任担当,要有道德感。”第三条是“男人要有一份好的工作。”第四条是“男人要个子高,长得帅。”第五条说“他要有钱。”我只看到前面这一段我就把它丢掉了,因为这种报告不符合常理和逻辑。据说这个报告是通过上门调查的,试问谁会对一个调研员讲真话,说自己的择偶标准是“喜欢有钱,喜欢长得帅的。他一定会把政治正确的东西搬到前面来,这是人性。虽然这没有什么不得了,但是偏偏有人真的就相信了。如果小伙子按照调研结果让姑娘喜欢你,那你就完蛋了。怎样避免掉入“数据”思维陷阱?(一)调查方式要得当第一个,市场调查的方式要得当,不能用一种让大家站在政治正确角度的方式去调研。比如说去马路做一个性文化调查,你觉得行人会告诉你自己喜欢什么样的性文化吗?隐晦的东西不好说和政治不正确,人家都不好意思说。但是人性并非如此,如果人性是按照桌面上说的这样,那些性文化用品店就不会上市并且飞速扩张了。(二)数据只是过往,只有趋势才能定明天再来去做调研的时候,你要相信那些基础数据呈现出来的基本面貌,就是有什么样的消费能力,当今具备什么样的消费供给,至于明天想要什么,你不要相信数据,要用决策者的大脑和头脑风暴去讨论出明天的趋势,没有人会告诉你明天会怎样。 (三)用变量思维去看待市场增量再来就是你做完了市场调查报告,面对的数据分析的时候,你要考虑一个增量。 很多人有存量思维,觉得市场调研报告显示今天我们这个城市是1000家餐饮店,所以以后也是1000家。其实这是不对的,你要考虑增量,今天是1000家,明天可能1300家,后天可能是1500家你要考虑增量。很多人不考虑增量,不考虑弹性的问题,只考虑存量1000家,好像就在1000家店里打滚,事实上增量是很惊人的,有很多行业到了井喷口,增量会剧增,而且增量会改变很多现实的形态。 事实告诉我们:我们绝大多数人低估了市场的增长预期、低估了增量的增长、低估了中国人消费品质的增长。事实上我们所有人都低估了人民群众的意识,都低估了人民群众对幸福生活的渴望,所以市场调查必须不可执迷于数据,要做出正确的选择去捕捉一个未来。

蓝浮

如何建立数据分析的思维框架

曾经有人问过我,什么是数据分析思维?如果分析思维是一种结构化的体现,那么数据分析思维在它的基础上再加一个准则:不是我觉得,而是数据证明这是一道分水岭,“我觉得”是一种直觉化经验化的思维,工作不可能处处依赖自己的直觉,公司发展更不可能依赖于此。数据证明则是数据分析的最直接体现,它依托于数据导向型的思维,而不是技巧,前者是指导,后者只是应用。作为个人,应该如何建立数据分析思维呢?建立你的指标体系在我们谈论指标之前,先将时间倒推几十年,现代管理学之父彼得·德鲁克说过一句很经典的话:如果你不能衡量它,那么你就不能有效增长它。所谓衡量,就是需要统一标准来定义和评价业务。这个标准就是指标。假设隔壁老王开了一家水果铺子,你问他每天生意怎么样,他可以回答卖的不错,很好,最近不景气。这些都是很虚的词,因为他认为卖的不错也许是卖了50个,而你认为的卖的不错,是卖了100。这就是“我觉得”造成的认知陷阱。将案例放到公司时,会遇到更多的问题:若有一位运营和你说,产品表现不错,因为每天都有很多人评价和称赞,还给你看了几个截图。而另外一位运营说,产品有些问题,推的活动商品卖的不好,你应该相信谁呢?其实谁都很难相信,这些众口异词的判断都是因为缺乏数据分析思维造成的。老王想要描述生意,他应该使用销量,这就是他的指标,互联网想要描述产品,也应该使用活跃率、使用率、转化率等指标。如果你不能用指标描述业务,那么你就不能有效增长它。了解和使用指标是数据分析思维的第一步,接下来你需要建立指标体系,孤立的指标发挥不出数据的价值。和分析思维一样,指标也能结构化,也应该用结构化。我们看一下互联网的产品,一个用户从开始使用到离开,都会经历这些环节步骤。电商APP还是内容平台,都是雷同的。想一想,你会需要用到哪些指标?而下面这张图,解释了什么是指标化,这就是有无数据分析思维的差异,也是典型的数据化运营,有空可以再深入讲这块。指标体系没有放之四海而皆准的模板,不同业务形态有不同的指标体系。移动APP和网站不一样,SaaS和电子商务不一样,低频消费和高频消费不一样。好比一款婚庆相关的APP,不需要考虑复购率指标;互联网金融,必须要风控指标;电子商务,卖家和买家的指标各不一样。这些需要不同行业经验和业务知识去学习掌握,那有没有通用的技巧和注意事项呢?好指标与坏指标不是所有的指标都是好的。这是初出茅庐者常犯的错误。我们继续回到老王的水果铺子,来思考一下,销量这个指标究竟是不是好的?最近物价上涨,老王顺应调高了水果价格,又不敢涨的提高,虽然水果销量没有大变化,但老王发现一个月下来没赚多少,私房钱都不够存。老王这个月的各类水果销量有2000,但最后还是亏本了,仔细研究后发现,虽然销量高,但是水果库存也高,每个月都有几百单位的水果滞销最后过期亏本。这两个例子都能说明只看销量是一件多不靠谱的事情。销量是一个衡量指标,但不是好指标。老王这种个体经营户,应该以水果铺子的利润为核心要素。好指标应该是核心驱动指标。虽然指标很重要,但是有些指标需要更重要。就像销量和利润,用户数和活跃用户数,后者都比前者重要。核心指标不只是写在周报的数字,而是整个运营团队、产品团队乃至研发团队都统一努力的目标。核心驱动指标和公司发展关联,是公司在一个阶段内的重点方向。记住是一个阶段,不同时期的核心驱动指标不一样。不同业务的核心驱动指标也不一样。互联网公司常见的核心指标是用户数和活跃率,用户数代表市场的体量和占有,活跃率代表产品的健康度,但这是发展阶段的核心指标。在产品1.0期间,我们应把注意力放到打磨产品上,在大推广前提高产品质量,这时留存率是一个核心指标。而在有一定用户基数的产品后期,商业化比活跃重要,我们会关注钱相关的指标,比如广告点击率、利润率等。核心驱动指标一般是公司整体的目标,若从个人的岗位职责看,也可以找到自己的核心指标。比如内容运营可以关注阅读数和阅读时长。核心驱动指标一定能给公司和个人带来最大优势和利益,记得二八法则么?20%的指标一定能带来80%的效果,这20%的指标就是核心。另外一方面,好的指标还有一个特性,它应该是比率或者比例。拿活跃用户数说明就懂了,我们活跃用户有10万,这能说明什么呢?这说明不了什么。如果产品本身有千万级别的注册用户,那么10万用户说明非常不健康,产品在衰退期。如果产品只拥有四五十万用户,那么说明产品的粘性很高。正因为单纯的活跃用户数没有多大意义,所以运营和产品会更关注活跃率。这个指标就是一个比率,将活跃用户数除以总用户数所得。所以在设立指标时,我们都尽量想它能不能是比率。坏指标有哪些呢?其一是虚荣指标,它没有任何的实际意义。产品在应用商店有几十万的曝光量,有意义吗?没有,我需要的是实际下载。下载了意义大吗?也不大,我希望用户注册成功。曝光量和下载量都是虚荣指标,只是虚荣程度不一样。新媒体都追求微信公众号阅读数,如果靠阅读数做广告,那么阅读数有意义,如果靠图文卖商品,那么更应该关注转化率和商品销量,毕竟一个夸张的标题就能带来很高的阅读量,此时的阅读量是虚荣指标。可惜很多老板还是孜孜不倦的追求10W+,哪怕刷量。虚荣指标是没有意义的指标,往往它会很好看,能够粉饰运营和产品的工作绩效,但我们要避免使用。第二个坏指标是后验性指标,它往往只能反应已经发生的事情。比如我有一个流失用户的定义:三个月没有打开APP就算做流失。那么运营每天统计的流失用户数,都是很久没有打开过的,以时效性看,已经发生很久了,也很难通过措施挽回。我知道曾经因为某个不好的运营手段伤害了用户,可是还有用吗?活动运营的ROI(投资回报率)也是后验性指标,一个活动付出成本后才能知道其收益。可是成本已经支出,活动的好与坏也注定了。活动周期长,还能有调整余地。活动短期的话,这指标只能用作复盘,但不能驱动业务。第三个坏指标是复杂性指标,它将数据分析陷于一堆指标造成的陷阱中。指标能细分和拆解,比如活跃率可以细分成日活跃率、周活跃率、月活跃率、老用户活跃率等。数据分析应该根据具体的情况选择指标,如果是天气类工具,可以选择日活跃率,如果是社交APP,可以选择周活跃率,更低频的产品则是月活跃率。每个产品都有适合它的几个指标,不要一股脑的装一堆指标上去,当你准备了二三十个指标用于分析,会发现无从下手。指标结构既然指标太多太复杂不好,那么应该如何正确的选择指标呢?和分析思维的金字塔结构一样,指标也有固有结构,呈现树状。指标结构的构建核心是以业务流程为思路,以结构为导向。假设你是内容运营,需要对现有的业务做一个分析,提高内容相关数据,你会怎么做呢?我们把金字塔思维转换一下,就成了数据分析方法了。从内容运营的流程开始,它是:内容收集—内容编辑发布—用户浏览—用户点击—用户阅读—用户评论或转发—继续下一篇浏览。这是一个标准的流程,每个流程都有指标可以建立。内容收集可以建立热点指数,看哪一篇内容比较火。用户浏览用户点击则是标准的PV和UV统计,用户阅读是阅读时长。从流程的角度搭建指标框架,可以全面的囊括用户相关数据,无有遗漏。这套框架列举的指标,依旧要遵循指标原则:需要有核心驱动指标。移除虚荣指标,适当的进行删减,不要为添加指标而添加指标。维度分析法当你有了指标,可以着手进行分析,数据分析大体可以分三类,第一类是利用维度分析数据,第二类是使用统计学知识如数据分布假设检验,最后一类是使用机器学习。我们先了解一下维度分析法。维度是描述对象的参数,在具体分析中,我们可以把它认为是分析事物的角度。销量是一种角度、活跃率是一种角度,时间也是一种角度,所以它们都能算维度。当我们有了维度后,就能够通过不同的维度组合,形成数据模型。数据模型不是一个高深的概念,它就是一个数据立方体。上图就是三个维度组成的数据模型/数据立方体。分别是产品类型、时间、地区。我们既能获得电子产品在上海地区的2010二季度的销量,也能知道书籍在江苏地区的2010一季度销量。数据模型将复杂的数据以结构化的形式有序的组织起来。我们之前谈到的指标,都可以作为维度使用。下面是范例:将用户类型、活跃度、时间三个维度组合,观察不同用户群体在产品上的使用情况,是否A群体使用的时长更明显?将商品类型、订单金额、地区三个维度组合,观察不同地区的不同商品是否存在销量差异?数据模型可以从不同的角度和层面来观察数据,这样提高了分析的灵活性,满足不同的分析需求、这个过程叫做OLAP(联机分析处理)。当然它涉及到更复杂的数据建模和数据仓库等,我们不用详细知道。数据模型还有几种常见的技巧、叫做钻取、上卷、切片。选取就是将维度继续细分。比如浙江省细分成杭州市、温州市、宁波市等,2010年一季度变成1月、2月、3月。上卷则是钻取的相反概念,将维度聚合,比如浙江、上海、江苏聚合成浙江沪维度。切片是选中特定的维度,比如只选上海维度、或者只选2010年一季度维度。因为数据立方体是多维的,但我们观察和比较数据只能在二维、即表格中进行。上图的树状结构代表钻取(source和time的细分),然后通过对Route的air切片获得具体数据。聪明的你可能已经想到,我们常用的数据透视表就是一种维度分析,将需要分析的维度放到行列组合进行求和、计数、平均值等计算。放一张曾经用到的案例图片:用城市维度和工作年限维度,计算平均工资。除了Excel、BI、R、Python都能用维度分析法。BI是相对最简便的。谈到维度法,想要强调的是分析的核心思维之一:对比,不同维度的对比,这大概是对新人快速提高的最佳捷径之一。比如过去和现在的时间趋势对比,比如不同地区维度的对比,比如产品类型的区别对比,比如不同用户的群体对比。单一的数据没有分析意义,只有多个数据组合才能发挥出数据的最大价值。我想要分析公司的利润,利润 = 销售额 - 成本。那么找出销售额涉及的指标/维度,比如产品类型、地区、用户群体等,通过不断的组合和拆解,找出有问题或者表现良好的原因。成本也是同理。这就是正确的数据分析思维。总结一下吧:我们通过业务建立和筛选出指标,将指标作为维度,利用维度进行分析。很多人会问,指标和维度有什么区别?维度是说明和观察事物的角度,指标是衡量数据的标准。维度是一个更大的范围,不只是数据,比如时间维度和城市维度,我们就无法用指标表示,而指标(留存率、跳出率、浏览时间等)却可以成为维度。通俗理解:维度>指标。到这里,大家已经有一个数据分析的思维框架了。之所以是框架,因为还缺少具体的技巧,比如如何验证某一个维度是影响数据的关键,比如如何用机器学习提高业务,这些涉及到数据和统计学知识,以后再讲解。这里我想强调,数据分析并不是一个结果,只是过程。还记得“如果你不能衡量它,那么你就不能有效增长它”这句话吗?数据分析的最终目的就是增长业务。如果数据分析需要绩效指标,一定不会是分析的对错,而是最终数据提升的结果。数据分析是需要反馈的,当我分析出某项要素左右业务结果,那么就去验证它。告诉运营和产品人员,看看改进后的数据怎么样,一切以结果为准。如果结果并没有改善,那么就应该反思分析过程了。这也是数据分析的要素,结果作导向。分析若只是当一份报告呈现上去,后续没有任何跟进、改进的措施,那么数据分析等与零。业务指导数据,数据驱动业务。这才是不二法门。作者:秦路

嬴则

写给产品经理:如何有效的做产品数据分析

编辑导读:面对海量的数据,我们需要对其进行筛选过滤,进行分析后才能对业务、运营等部门产生有效的价值。而如何做好产品数据分析呢?本文作者将从心法和招式两个方面进行分析,希望对你有帮助。读这篇文章,大约需要3分钟。我写了两个基本的事情,关于产品经理,在工作中做数据分析时,如何保持行之有效,它们一个是关于“心法”、一个是关于“招式”。01 “Make it right 保持正确动作”我在最初接触射箭运动时,感觉自己动作还可以,并且时不时地也能命中靶心,剩下的只是大量练习而已。但是事实上,我的技术动作等所有事情都很糟糕,是运气和其他一些因素,让我并没有意识到这一点。所以我错误地认为“我没有问题!”于是随着时间的推移,我懊恼地发现自己的努力并没有换来进步。同样身为一名数据产品经理,我常常思考,我们在数据分析上有没有过错误地认为过“我没有问题!”实际上我见过很多的无效的数据分析和相关的数据需求,它们都有几个和上面的疑问类似的“共同点”:引用了大量的“虚荣指标”,但又似乎什么都没说,导致看起来没有问题;把分析结果,强加在预先设定的结论上,强制没有问题;引用了大量错误的指标,进而得出更加错误的结论,没有发现有问题;得出结论后,并不能付之以行动,无法解决问题。毫无疑问,大家都知道,这样的分析行为是错误的。但很多时候,我们都在做着类似的事情,并对此毫无察觉。其实,即便是很多做数据分析多年的老鸟也会时不时犯类似的错误。就像是我们需要判断“产品需求”的真伪一样,我们在做分析时,它的“目的”、“方法”、“结论”,也存在真伪和一些细微的动作差异。而我们稍一不留神,就会踩上“数据分析的坑”,并且这是常有的事儿!所以能够找到数据分析的问题并改正,从而进行有效的分析,来自“数据感” !我们在做数据分析的时候,第一重要的就是“数据感”。它是一种思维方式甚至是一种直觉,可以帮助我们快速的分辨我们所要分析的场景下,分析的指标、度量值,等等是否正确有效。但这是一种需要长期的正确练习,才能获得的能力,而往往我们没有那么多的时间和精力去打磨。那么作为产品经理,我们有必要掌握数据分析?(说数据分析简单不需要刻意掌握,那都是骗人的)其实,对产品经理来说,其实数据分析没有那么的“鸡肋”,也不必担心这有多难。在做数据产品经理之前,我也或多或少的做过一些面向业务的项目。我写这篇文章的目的,也是借此机会,想通过自己一些经验,来尽我所能的讲解“如何有效的做产品数据分析 ”这件事,进而通过一些“动作改善”,让我们的分析能力提升。由于篇幅限制,我试着总结几点干货,以求可以快速的产生“数据感”:好的指标天然具有比较性和计算性(只能看的指标,也只能看看);结论必然是可执行的(做不到的事情,先放到一边去);正确的结果一定是有参照的(否则就容易产生错觉);平均值和总数,不是只有这俩计算结果的方法(众数、中位数、上下四分位、方差同样也很重要);同一件事,存在两者皆可的指标口径,必只取其一(新用户,是注册算新,还是下单算新)。指标与前后分析,一定存在逻辑关系或直接影响的关系(能够前后自圆其说)02 “Just do it 做起来就是了”第一件事,在分析开始前制定分析目标。对于你负责的每个产品线来说,是第一件事情。在不同的产品开发阶段,我们需要侧重关注不同的分析目标。例如,在没有解决用户转化之前,大可不必过多的关注用户的留存、流失指标。因为我们在没有确保核心的产品形态稳定前,大多数的用户去留,都是由是否满足用户需求而决定的。所以这个时候,用户的留存、流失分析就变成了后置结论。可以有,但不是重点,因为它们并不能帮助我们解决眼前的问题。(产品上线早期,我知道了我们的次日流失率是80%,但是它仅仅是个结论,我们并不能通过这个指标进行改变任何事情,因为结论不能改变结论本身!)关于分析目标,我们对于一个产品线,通常有以下四类目标可以逐个关注:产品设计是否满足预期,每个环节的基本转化是否正常,当下哪里有问题?(我们已知的不确定的问题);用户增长/留存/流失情况,我们的用户池是否正常,是否还有运营提升空间?(我们已知的且确定的问题);用户交互行为结果,如浏览时长、决策时间等行为特点,如何运用它?(我们还不知道的确定问题);用户是否还有其它潜在需求,是否可以挖掘,它有多大价值空间?(我们不知道的未知问题)。第二件事,在分析过程中,我们明确分析目标后,要搭建行之有效、简单明了的分析框架和指标体系。事实上,大部分的分析过程都是可复用的,掌握几个现成的方法可以帮助我们快速入手。并且我们大部分的分析都离不开这些基本方法。关于搭建模型,其实是另一个较大的内容,在后面的文章中我会单独分享,本文我只能说一些基本思路。除了一些常见的诸如AArrr、RFM等模型,我们还能怎样有效的分析数据呢?其实我们可以使用一些简单的分析模型思路,做到开箱即用:因果前后切分指标:这有点类似漏斗分析,当我们所分析的某个目标,在其前后存在前置或后置的逻辑节点,那么我们就应该先分析前置节点,再观察后置结论。例如:新用户启动App到注册过程,我们要做注册转化率分析。假定我们有一个用户注册产品设计,并且完全依赖它完成注册转化。那么对于注册转化率的分析,引导策略差异分析就是前置分析。此时如果我们只看转化率和转化效能(如注册转化率、注册人数、注册时长区间),而忽视用户注册引导策略的差异因素,实时上我们是无法发现和解决真正问题的。此时我们应该关注不同策略的触达执行效果(ABC策略,是否符合预期、行业标准、是否存在较大差异),以及其注册后的用户行为目标是否健康(是否存在大量“未转化的注册用户”、不同策略是否存在后续差异),才能知道我们注册转化率它是否真的正常,问题出在哪里,且是否是有效。我们对前因后果进行切分,它并不跑题,而是细化拆解。透过同一个口径的不同结果,来找到结论。影响因素分析:我们在分析某个用户目标时,是否存在多个并行的影响因素。那么我们应该找出其对目标的影响程度,并分析是那几个因素出了问题。例如:我们在分析自家应用的用户下单转化时,在用户点击详情前,通常有几个并行因素影响。比如价格与优惠对用户的点击吸引、标题描述与图片对用户点击的吸引、排序与曝光度对点击可能的影响、曝光场景对点击可能的影响等等。以上因素通常是并行存在的,这时我们就要透过分析,先找出最大的影响因子(或发现都差不多),然后分析问题。价格是否敏感、描述是否影响决策、排序与曝光策略是否正确、场景是否存优化空间。受篇幅所限,这里我不再展开更多的内容,仅提供一些启发。03 结尾实际上产品经理的数据分析,也是一个需要正确目标导向和固定方法的实践过程,且有很多内容。单篇内容我无法一次讲完,去拆解细讲这个庞大的内容。(野心够大)作为产品经理,当我们掌握一些数据分析的“动作”后至少可以完成以下的事情了:我们可以透过简单清晰的指标对比,我们可以监测产品的日常变化,以确定是否出了状况;我们可以通过几个核心指标监测,我们可以快速判断是否符合产品预期;我们可以通过转化率分析,我们可以清晰地知道,是哪个环节出了问题;我们可以通过行为分析,我们可以研究用户的需求是否被命中;我们可以通过数据复盘,可以刚好地量化产品价值,找到不足之处;以及一些重要技能:埋点,SQl入门,用户行为分析,业务产品策略化改造,欢迎关注我的后续文章。本文由 @尘言 原创发布于人人都是产品经理,未经作者许可,禁止转载题图来自Unsplash,基于CC0协议。