有人经常会把数据分析与机器学习给搞混掉,机器学习这个主题已经很普遍了,每个人都在谈论它,但很少有人能够透彻地了解它,今天老李给大家分享一下机器学习的概念。数据分析和机器学习如果你认为大数据仅仅是关于SQL语句查询和海量的数据的话,那么别人也会理解你的,但是大数据真正的目的是通过对数据的推断,从数据中获取价值、从数据中发现有用的东西。例如,“如果我降低5%的价格,我将增加10%的销售量。”数据分析是最重要的技术,包括如下方面:描述性分析:确定所发生的事情。这通常涉及到描述发生了什么现象的报告。例如,用这个月的销售额与去年同期进行比较的结果。特征性分析:解释现象发生的原因,这通常涉及使用带有OLAP技术的控制台用以分析和研究数据,根据数据挖掘技术来找到数据之间的相关性。预测性分析:评估可能发生的事情的概率。这可能是预测性分析被用来根据你的工作性质、个人兴趣爱好,认为你是一个潜在的读者,以便能够链接到其他的人。机器学习适合于预测性分析。一个例子说明什么是机器学习机器学习是指利用计算机模拟或实现人类的学习行为。那机器是怎么学习的呢?我们就举个相亲的例子。现有一妙龄女郎相亲,候选人有青年 A、B、C 和 D,四个青年的属性分别为:A:『高,帅,富』B:『高,帅,穷』C:『高,丑,富』D:『矮,丑,富』经过一番筛选,女子将 [A C D] 分为适合婚恋组,将 [B] 划分为不适合婚恋组。上述就是人类的学习过程。由于相亲对象实在过多,妙龄女郎相不过来了,于是她找来机器帮忙。首先,她要培训下机器,告诉机器如下信息:A:属性『高,帅,富』— 标签 『适合婚恋组』B:属性『高,帅,穷』— 标签 『不适合婚恋组』C:属性『高,丑,富』— 标签 『适合婚恋组』D:属性『矮,丑,富』— 标签 『适合婚恋组』机器一番学习,建立起了「属性」和「标签」的对应关系,这就是机器学习建模过程。现在有青年 E、F、G …… 的属性值,妙龄少女把这堆属性值告诉机器,机器返回哪些是可以继续发展的对象,哪些是淘汰的对象。这就是 有监督机器学习,即告诉机器训练数据的「属性」和「标签」,机器利用某种算法建立「属性」和「标签」的关系,利用该关系,就可以根据新数据的「属性」得到新数据的「标签」,如下图。机器学习如何工作?垃圾邮件过滤是一个很好的例子,它利用机器学习技术来学习如何从数百万封邮件中识别垃圾邮件,其中就用到了统计学技术。例如,如果每100个电子邮件中的85个,其中包括“便宜”和“伟哥”这两个词的邮件被认为是垃圾邮件,我们可以说有85%的概率,确定它是垃圾邮件。并通过其它几个指标(例如,从来没给你发送过邮件的人)结合起来,利用数十亿个电子邮件进行算法测试,随着训练次数不断增加来提升准确率。事实上,谷歌表示它现在已经可以拦截99.99%左右的垃圾邮件。机器学习的算法有哪些我制作了一份机器学习算法选择速查表:这张速查表能帮你从众多机器学习算法中,针对你自己的具体问题和情况,选出最合适的算法。下面就介绍如何使用这份速查表。因为是面向初学者,所以在谈到算法时,会尽量做一些最简单的假设。下文谈及的算法也都是众多数据科学家、机器学习专家和开发者们推荐的结果。怎样使用速查表按照“如果(路径标签)就用(算法)”的逻辑,查看速查表上的路径和算法标签。例如:如果你想降维,就用主成分分析。如果你需要迅速得到数值预测,就用决策树和逻辑回归。如果你需要层次结果,就用层次聚类。有时我们可能需要不止一个算法,有时可能这些算法没有一个是最合适的。我和许多数据科学家聊过,他们认为这种情况下,最保险的做法就是把所有算法都尝试一遍,找到最合适的那个。
在进行数据分析过程中,我们通常需要使用各种模型来证明自己的分析观点,使自己的结论更具备说服力,同时也让自己的论证思路更具备逻辑性和条理性。今天老李就给罗列了6个常用的数据分析模型,并附上实际的案例讲解以及分析模板,希望能让大家快速掌握这些模型和方法!话不多说,上干货!1、RFM模型RFM 分析是美国数据库营销研究所提出的一种简单实用的客户分析方法,发现客户数据中有三个神奇的要素:最近一次消费时间(R):客户距离最近的一次采购时间的间隔。最近一段时间内消费频次(F):指客户在限定的期间内所购买的次数。最近一段时间内消费金额(M):客户的消费能力,通常以客户单次的平均消费金额作为衡量指标。这三个要素构成了数据分析最好的指标,RFM 分析也就是通过这个三个关键指标对客户进行观察和分类,针对不同的特征的客户进行相应的营销策略,如下图所示:案例讲解:已知某公司销售信息,分析该公司客户消费能力,并将其分类进行营销。分析思路:1)获取R、F、M 3 个关键指标。2)根据实际业务情况,设置并求出阈值,可以是平均值、中位数,示例使用R、F、M三个指标的平均值。3)将三个指标R、F、M进行特征向量化,对于M、F,如果客户消费金额和频率高于阈值,计为1,否则计为0;对于R则相反。4)根据特征向量将客户分类。利用FineBI制作结论:客户类型中占比最多的是一般发展客户(最近购买过,但频率和金额都不大),应向该客户推送公司主营业务,通过宣传推广让产品信息送达客户手中。其次占比较多的是一般挽留客户(很长时间未买,购买的频率和金额较少),应该面向该部分人群推出促销活动,拉动消费的积极性此外还可计算各地区客户消费能力与消费流失情况,由于M、F 为正向指标,则用M、F作为横纵轴代表客户消费的能力,值越大表示消费能力越高R为负向指标,则代表消费流失情况,图形越大表示最近消费距今时间越长,流失越严重。结论:成都和北京地区客户消费金额较大,但客户流失情况比较严重,需要重点关注。武汉、沈阳地区客户以小额消费为主,但消费次数多。2、帕累托分析帕累托分析法又称ABC 分类法,平常也称之为「80 对 20」规则,常用于商品的库存管理分析中。把产品或业务分为A、B、 C三类,用于分清业务的重点和非重点,反映出每类产品的价值对库存、销售、成本等总价值的影响,从而实现差异化策略和管理。案例讲解:已知不同品类商品的销售额信息,需分析商品销售量情况有重点的管理商品。分析思路:1)计算不同品类商品累计销售额及其占比,2)按照累计销售占比将品类分成几类,将品类按照累计销售额占比:0-70% 1类;70%-90% 2类;90%-100% 3类3、购物篮分析大家应该都听过这样一个经典案例:超市里经常会把婴儿的尿不湿和啤酒放在一起售卖,原因是经过数据分析发现,买尿不湿的家长以父亲居多,如果他们在买尿不湿的同时看到了啤酒,将有很大的概率购买,从而提高啤酒的销售量。这种通过研究用户消费数据,将不同商品之间进行关联,并挖掘二者之间联系的分析方法,就叫做商品关联分析法,即购物篮分析,通过「支持度」、「置信度」、「提升度」三个指标判断商品见的关联。支持度:是指A商品和B商品同时被购买的概率,或者说某个商品组合的购买次数占总商品购买次数的比例。支持度说明了这条规则在所有事务中有多大的代表性,显然支持度越大,关联规则越重要。比如今天共有10笔订单,其中同时购买牛奶和面包的次数是6次,那么牛奶+面包组合的支持度就是6/10=60%置信度:指购买A之后又购买B的条件概率,简单说就是因为购买了A所以购买了B的概率比如今天共有10笔订单,其中购买A的次数是8,同时购买A和B的次数是6,则其置信度是6/8=75%提升度:先购买A对购买B的提升作用,用来判断商品组合方式是否具有实际价值,是看组合商品被购买的次数是否高于单独商品的购买次数,大于1说明该组合方式有效,小于1则说明无效。比如今天共有10笔订单,购买A的次数是8,购买B的次数是6,购买A+B的次数是6,那么提升度是0.6/(0.8*0.6)>1,因此A+B的组合方式是有效的4、波士顿矩阵波士顿矩阵通过销售增长率(反映市场引力的指标)和市场占有率(反映企业实力的指标)来分析决定企业的产品结构。波士顿矩阵将产品类型分为四种,如下图所示:5、转化分析转化漏斗模型,是分析用户使用某项业务时,经过一系列步骤转化效果的方法。转化分析可以分析多种业务场景下转化和流失的情况,不仅找出产品潜在问题的位置,还可以定位每个环节流失用户,进而定向营销促转化。解决哪些问题:比如搜索商品——>浏览商品——>商品下单——>交易付款,每个过程的转化率有多少?两个推广渠道带来不同的用户,哪个渠道的注册转化率高?哪些客服下单转化情况最好?1、阶段转化:对于需要进行逐级转化的平台运营,首先可以通过用户转化漏斗图进行宏观的流程转化数据分析找出目前阶段最需要优化的运营环节和平台,有效地进行针对性治理,最终提高整体平台用户转化率。付款转化率=付款人数/下单人数分析结论:1)用户从浏览商品行为到添加购物车行为这一流程,其转化率为51.22%,反映出该平台的商品介绍、图片描述等对用户有较强的吸引力;2)添加购物车到下单的转化率,其转化率高达99.66%;3)但付款的转化率仅 50.34%,这是一个值得反思的转化节点4)通过数据分析猜测该平台商铺支付渠道不完善,需要增加例如支付宝、微信等快捷支付渠道,降低平台因为没有提供用户习惯性的支付渠道而导致用户放弃购买行为的几率。2、事件转化通常指的是平台或商铺通过一系列的运营推广活动以及由于公共事件影响所带来的额外价值,例如网络营销总的SEO关键词投放、折扣促销活动、邮件营销等等效果跟踪。通常可关注于营销渠道转化率等指标进行活动的推广营销效果评估案例解读:1)目前平台的转化率最高的渠道主要是基础上线工作、轮台、贴吧推广、微信推广、品牌基础推广几个渠道。2)根据基础线上工作渠道随时间的转化率走势情况,可以推测出平台在2015年12月(因为从2015年12月用户的下单转化率有所下降,一般用户在知道近期即将有促销活动的时候,往往会收藏商品从而产生延迟消费,所以活动开始前的时间转化率会降低)左右发布了即将要开始的商品促销活动,同时活动日期大概在2016年1月左右(转化率提升明显),属于跨年的大型活动促销,同时也取得了较好的活动效果。6、杜邦分析法杜邦分析法利用几种主要的财务比率之间的关系来综合地分析企业的财务状况,用来评价公司盈利能力和股东权益回报水平,从财务角度评价企业绩效。其基本思想是将企业净资产收益率逐级分解为多项财务比率乘积,这样有助于深入分析比较企业经营业绩。实现思路:净资产收益率=销售净利润率*资产周转率*权益乘数净资产收益率受三类因素影响:实现效果:
数据分析的优点优化运营和管理流程通过对业务数据的分析,我们知道如何合理分配业务资源以及流程需要优化的地方。例如,通过对销售波动的分析,我们确定是销售单价的影响还是交易量的变化。通过对库存周转率的分析,我们可以推断采购过程是否需要改进,或者库存策略是否需要改变。造就更大的使用价值经济效益根据月度或一季度生产制造耗损或欠佳品的剖析,寻找减少原材料的耗损指数,减少原材料成本费,造就更大的盈利。通过对SKU收入和利润贡献的分析,确定了哪些产品最畅销,哪些SKU是收入和利润贡献的主体,哪些成品是淘汰品或迭代品。发觉了业务流程机遇根据剖析外流客户特性,对客户开展综合性评定,找到了挽回使用价值高、挽回难度系数低的客户人群。业务部门听取了意见和建议并进行挽回主题活动,比沒有开展层次挽回前,提高了用户的保留率5%。效率提高提高了流水号的效率,将过去3天更新的数据升级到第二天,获得了业务部门的好评,提高了决策效率。大数据分析流程都包含哪些步骤数据收集大数据处理的第一步是数据的收集。现在的中大型项目通常采用微服务架构进行分布式部署,所以数据的采集需要在多台服务器上进行,且采集过程不能影响正常业务的开展。基于这种需求,就衍生了多种日志收集工具,如Flume、Logstash、Kibana等,它们都能通过简单的配置完成复杂的数据收集和数据聚合。数据存储收集到数据后,下一个问题就是:数据该如何进行存储?通常大家最为熟知是MySQL、Oracle等传统的关系型数据库,它们的优点是能够快速存储结构化的数据,并支持随机访问。但大数据的数据结构通常是半结构化(如日志数据)、甚至是非结构化的(如视频、音频数据),为了解决海量半结构化和非结构化数据的存储,衍生了HadoopHDFS、KFS、GFS等分布式文件系统,它们都能够支持结构化、半结构和非结构化数据的存储,并可以通过增加机器进行横向扩展。分布式文件系统完美地解决了海量数据存储的问题,但是一个优秀的数据存储系统需要同时考虑数据存储和访问两方面的问题,比如你希望能够对数据进行随机访问,这是传统的关系型数据库所擅长的,但却不是分布式文件系统所擅长的,那么有没有一种存储方案能够同时兼具分布式文件系统和关系型数据库的优点,基于这种需求,就产生了HBase、MongoDB。数据分析大数据处理最重要的环节就是数据分析,数据分析通常分为两种:批处理和流处理。批处理:对一段时间内海量的离线数据进行统一的处理,对应的处理框架有HadoopMapRece、Spark、Flink等;流处理:对运动中的数据进行处理,即在接收数据的同时就对其进行处理,对应的处理框架有Storm、SparkStreaming、FlinkStreaming等。批处理和流处理各有其适用的场景,时间不敏感或者硬件资源有限,可以采用批处理;时间敏感和及时性要求高就可以采用流处理。随着服务器硬件的价格越来越低和大家对及时性的要求越来越高,流处理越来越普遍,如股票价格预测和电商运营数据分析等。数据应用数据分析完成后,接下来就是数据应用的范畴,这取决于你实际的业务需求。比如你可以将数据进行可视化展现,或者将数据用于优化你的推荐算法,这种运用现在很普遍,比如短视频个性化推荐、电商商品推荐、头条新闻推荐等。当然你也可以将数据用于训练你的机器学习模型,这些都属于其他领域的范畴,都有着对应的框架和技术栈进行处理,这里就不一一赘述。灯果可视化有众多可视化大屏模板,可以自己动手制作,也支持定制制作大屏哦~
用过互联网视频产品的朋友,很多人都有着一种卸载又安装的经历。它们就是一个让人欲罢不能的存在,当你看完一个感兴趣的视频之后,会有十个百个同样类型的视频推送给你。这些就是你的喜好,会让你不断看下去,不知不觉中几个小时就过去了。这就是数据的作用,就是超级数据分析的结果。不光光视频产品是这样,我们现在的生活中,已经被海量数据所覆盖,买东西时我们会首先看哪一种是爆款?读小说时会首先看畅销书排行榜,甚至在上网搜索时,所收到的信息都是经过数据处理的。而在这些数据的背后就是统计学的阵地。所谓的大数据分析就是统计学的极致应用。美国计量经济学家伊恩艾瑞斯的这本《魔鬼统计学》就是帮助我们理解影响我们生活方方面面的这些超级数据分析的底层逻辑。在我们的社会中,当一个决策需要被做出时,与统计学的数据分析方法相对应的有着两种截然不同的其他方法,直觉和专业人员的专业分析,书中用大量的案例对比这三种方法,真正让我们知道统计学背景下的数据分析,才是我们做出最正确决定的方法,也才是最科学的方法。现在让我们看一下直觉怎样影响我们犯错误的。书中列举了一个关于政府减少失业保险金领用的例子。为了减少支出,是把领取保险的条件开的更加苛刻,还是花一部分钱建立就业培训,哪种方案更有效?直觉肯定是把保险金领取条件设置得更高,这样就能减少领钱的人,也就更省钱;但统计数据不是这样子的,建立就业培训,提高就业率,减少失业,领失业保险金的人不就更少了吗。这样的案例比比皆是,心理学家研究,人类是极易受到暗示的群体,现代社会中,有着大量的商家都在使用暗示的手法,改变着我们的直觉,比如商品打折销售,我们大量买了东西,我们好像省了钱,但真的统计过这些数据吗?当我们买了大量无用的东西时,可能损失的更多。既然直觉没有用,那专业的决策总没有错吧?统计学数据显示,真的不一定。医疗领域是最专业的领域,医生都至少受到过十年以上的专业训练,他们的决定是最优解吗?下面看一个在医生中流行很久的例子,大多数医生都相信维生素b12需要注射才能发挥最好的疗效。现在的统计数据显示注射和片剂都是只有80%的作用,并没有明显差异,那些需要维生素b12点人,白白挨了这么多针。在医生中这种案例也有很多,再专业的医生,所能见到过的案例也是有限的。随着互联网技术的普及以及医院透明度的提高,另外一种模式已经出现,那就是基于互联网的“诊断决策支持”软件。该软件把大量的医疗数据汇聚到计算机中心,随着病例的不断增多,中心中所能见到的病例远远超过单个医生,通过筛选,这个软件可以给出病人最有可能的诊断。当然,现在它还没有替代医生,但绝对可以帮助医生做最正确的诊断,减少错误的发生概率。超级数据分析的优势已经超过个人直觉,甚至超过专业人士,那今后的人们还需要自我决策吗?利用数学模型不就更容易得到最优解吗?人类的自主决策权就这样慢慢的被失掉了吗?统计学,真的是人类所面临的魔鬼啊,也许这就是《魔鬼经济学》这本书书名的由来。当然,人类现在还不需要太悲观,毕竟再有用的数据也是为人类服务的工具,我们需要的就是利用好这个工具,让其更好的为我们服务。而要用好这个工具,统计学就是我们不得不掌握的知识了。在数学领域,它一定是除了基础数学,最需要我们掌握的一部分了,来阅读这本《魔鬼统计学》,掌握一些统计学常识吧。 #读书#
根据我从业这么多年的经验,如果为了尽快找到一份数据分析的工作,需要掌握三个核心的点:数据分析基础(一定的数据思维、统计学基础和sql能力)——能做最基本的取数工作数据分析能力(使用各种分析工具、套用数据模型、做可视化报表等)——能做简单的分析工作业务分析经验(熟悉各种业务逻辑和指标体系)——能做复杂的业务拆解因此对新人来说,强烈建议按照下面的学习路径进行学习:一、数据分析常用的思维判断一个人做数据分析的水平,不是看他学习了几种工具,最核心的差距在于思考问题的思维能,这是数据分析的本质,也是最容易被人忽视的点常用的思维有很多种,下面简单举几个例子:(1)细分思维:比如某次考试小明的名次很低,如果他的父母不懂细分,一定会不由分说地训斥小明,根本找不到小明成绩差的真实原因。而如果他们懂得细分分析,应该怎么做呢?应该将名次的维度转化为科目,然后分析每个科目的成绩,也许会发现小明只有某个科目没有考好,再针对这个短板采取相应的策略,这就是细分分析的思想。(2)趋势思维你可以简单地把趋势分析定义为对比分析的一种,一般来说是按照时间的维度,对某一数据或者不同数据变化趋势进行差异化研究,以及对数据的下一步变化进行预测。趋势分析一般而言,适用于产品核心指标的长期跟踪,比如点击率,GMV,活跃用户数等。做出简单的数据趋势图,并不算是趋势分析,趋势分析更多的是需要明确数据的变化,以及对变化原因进行分析。(3)目标思维我们在接到业务的需求之后,需要先想一下这个需求的真正核心目的是什么?如果知道了业务目标,那么就可以把这样一个取数需求变成一个分析类需求,最终的交付形式就成了一份PPT,这样,就能避免成为取数机器。(4)结构化思维在面对这么一个问题时,结构化思维方法首先做的并不是立刻着手清洗数据。而是根据对业务的理解,先为数据分析画一个思维导图,它的作用相当于你来到一个陌生的城市拿出百度地图查询乘坐交通工具到入住的酒店的路线图。事实上,结构化思维就是由麦肯锡提出的著名的“金字塔思维”,如下图就是典型的结构化:(5)演绎思维、归纳思维很显然,归纳是从个体属性出发,寻找因子之间的共性,总结出一个一般的特性;而演绎则相反,是从一般整体出发,寻找事物之间的逻辑,从而得到某个个体的特性。二、统计学相关的理论与基础(1)描述型统计描述统计是我们做数据分析的主要基础,比如说销售人员说今年我们的销售情况很好,比去年要好很多。这不叫做描述统计,因为“比去年好”这个特点不是定量的数据描述性统计里大概有三个分类:集中趋势、离散趋势、分布。集中趋势包含平均数、中位数、众数、分位数等,离散趋势包含极差、平均差、方差、标准差、分位差等,分布主要包含峰态分布和偏态分布(2)推理型统计也叫作推理性统计,他的目的是研究如何利用样本数据去推断总体数据的方法。他跟描述统计不一样,描述统计是用整体的数据来描述整体特征,推理统计是用部分数据来推理整体特征。我们经常说的假设检验、采样与过采样、回归预测模型、贝叶斯模型都是推理型统计。二项分布:如抛硬币n次,不同正面朝上的次数对应的概率;几何分布:如抛硬币n次,到第k次才取得第一次成功的概率服从的分布泊松分布:在一定时间范围内发生概率相同,给定其发生的平均发生的次数μ,则事件在该事件范围内发生k次的概率服从泊松分布(3)假设检验假设检验就是通过抽取样本数据,通过小概率反证法去验证整体假设(4)回归回归分析的任务就是,通过研究X和Y的相关关系,尝试去解释Y的形成机制,进而达到通过X去预测Y的目的。(5)聚类聚类是根据数据本身的特性研究分类方法,并遵循这个分类方法对数据进行合理的分类,最终将相似数据分位一组,也就是"同类相同、异类相异”三、快速套用的分析模型(1)帕累托模型:帕累托分析依据的原理是20/80定律,80%的效益常常来自于20%的投入,而其他80%的投入却只产生了20%的效益,这说明,同样的投入在不同的地方会产生不同的效益。(2)波士顿模型这个模型虽然是市场模型,但是其背后的逻辑却是数据分析,也就是矩阵模型。矩阵模型是双维度模型,你可以从两个维度出发对不同的指标进行定位,比如波士顿矩阵,即从两个维度对产品或者业务进行定位,也就是产品本身和销售的维度(3)购物篮分析购物篮模型的本质是关联,关联大家应该都很好理解,就是反映某个事物与其他事物之间相互依存关系的,在商品关联分析的定义是,通过对顾客的购买记录数据库进行某种规则的挖掘,最终发现顾客群体的购买习惯的内在共性(4)用户流失模型主要应用在两个方面:流失用户召回、现有活跃用户防流失,最常见的就是AARRR模型、漏斗模型等等。(5)用户价值模型业务分析,很多情况下都是要在资源有限情况下,去最大化的撬动效益,如何挖掘能创造最大价值的客户就是用户价值模型的工作。最常见的就是RFM模型、CLV模型、顾客社交价值模型。(6)5W2H模型所谓的5w2h其实就是针对5个W以及2个H提出的7个关键词进行数据指标的选取,根据选取的数据进行分析(7)SWOT模型分析法也叫态势分析法,S是优势、W是劣势,O是机会、T是威胁或风险。四、常见业务场景(1)经营类数据分析对收入、销量等与企业经营活动相关分析,监控企业的运行情况,是为了发现企业运营中的问题,关注点是销量/销售额总体的时序变化、地区分布、变化原因(2)用户数据分析对购买额、购买频次、购买偏好等相关分析,目标是深入理解客户,关注点是用户画像分层、RFM模型衡量用户价值分层(3)销售数据分析定义是指销售收入、销售额、单价等与销售情况直接相关的分析,目标是完成销售任务,监控销售销量低的原因,提出解决方法,关注点是时序进度、落后原因、销售单产情况(4)营销/市场分析对企业营销/市场活动的投放、反馈、效果相关分析,目标是了解活动结果、优化活动计划、提升活动效率关注点主要集中在ROI相关指标
在很多人眼中,数据分析是一种门槛低、技术含量低、价值低的工作,网上的教程也处处凸显出数据分析是一件很简单的事,无外乎就是收集处理、处理数据,掌握好几款基本的工具就可以了。其实不然,入门数据分析虽然很简单,但要做好数据分析的难度远非常人所理解的程度,它的难处不在于技术,也不在于业务的复杂,而是在于人厘清广度数据的逻辑思维能力。下面,我们将用头条的文章推荐影响因素为例,来说明为什么数据分析并不简单,以及这种不简单所带来的影响。01数据分析的不简单之处如果我们是就职于自媒体公司的员工,那自然会面临着要分析文章推荐量影响因素的需求。难题1:如何具体化目标。接到一个分析需求后,是可以有无限种方式来理解需求的,每种理解都会对应着不同的工作结果,如果不提前将需求具体化,很有可能做出来的结果并不是别人所需要的。就拿上述需求来说,我们可以这么理解:找出影响文章推荐量的所有因素;找出影响文章推荐量的几个关键因素;找出并量化影响因素的系数;找出影响因素并进行验证;……每种需求还要提前想清楚是否能做,以及需要花多少时间。如果是需要验证文章的发文时间是否影响推荐,而每天又才发文一篇,那这样的需求由于样本量少要提前想到解决方法,并告知相关情况。否则,如果要求是一周之内就出结果的话,就会出现样本量少导致结论不严谨的情况。难题2:如何选择指标假设我们现在面临的需求是找出影响文章推荐量的三个关键因素,并计算出影响系数。首先,根据经验我们会归纳出两个大的影响因素:账号和文章。然后,我们需要思考用哪些指标来衡量这些影响因素。譬如账号,我们知道账号的质量会影响文章的推荐,那我们选择账号是否新手期、粉丝数、所属垂直领域、信用分等指标来衡量。现在问题来了,好像每个指标还可以继续拆解下去。譬如粉丝数可以根据是否活跃、粉丝性别、粉丝自身关注量、粉丝地域等维度继续拆解下去。这里我们就面临着如何发散寻找影响因素,再如何从发散中聚焦回来的难题!难题3:如何量化指标有些指标非常好量化,有现成的数据,譬如粉丝数和信用分。但针对如账号是否是新手期该如何衡量呢,按照注册时间是否满一个月吗?那首次发文是注册一月之后的事,这样的又如何衡量?虽然我们可以直接忽视这些特殊情况,但这是否意味着我们没有找到一个合适的指标呢?难题4:如何选择数据这一点可能有点难以理解,我们拿展现量来说。按照头条的逻辑,文章最上层的是展现量,展现量再分为推荐、相关文章、个人主页、阅读历史、搜索、其它等6种分类。这时我们首先就面临着到底是采用展现量还是推荐量的问题。另外,一篇文章从发表之后就一直会有展现量,但一般24小时后的展现量点击率非常低。那我们是该选择所有时间的展现量还是发文后24小时的展现量,亦或是发文后12小时、36小时、48小时……同时,我们只能获得每一天的展现数据,针对发文时间不一致的文章,要如何比较他们的发文后24小时展现量。难题5:如何分析多指标假如前面的问题我们全部都解决了,得到了一个如下的明细数据。常用的方式就是对维度组合进行对比分析,譬如对比不同发文时间的点击率、不同阅读时长的点击率……先不说这种对比是否能得到有效结果,仅仅只是维度的组合就会出现无数多种,要在这么多组合之中找出有效组合就不是一件容易的事。有人会说,可以直接用多元统计分析或者机器学习模型。确实,这些都是有效方法,譬如决策树模型可以告诉我们每个特征的重要性程度,找到前三个重要指标和它们的系数就算是完成需求了。正是因为数学模型在分析多变量复杂需求时的有效性就催生出了数据分析师追求技术的局面。02数据分析不简单的影响数据分析是一项兼具广度和深度的工作,在万物皆数的大数据时代,即使只是一个小小的业务,它的广度也可以无限扩大,要想将广度内的数据都进行分析,就要求一个人具备抽丝剥茧、化繁为简的强大逻辑思维能力,以及对抽象出的大量广度数据进行深度分析的技术能力。在上文的分析中已经逐一罗列出了在进行广度分析时我们会面临的问题,这些问题的解决不是说靠技术就能解决的,更主要的是考验我们的逻辑思维能力。当然了,清逻辑得到明细数据后,借助于模型可以让我们的任务变得非常简单和具体。相比于广度数据的逻辑思维能力,进行数据深度分析的技术能力要更好去学(主要是因为有大量封装好的机器学习库),所以不少人开始放弃对于广度的分析,而去追求对于深度的钻研。这就是为什么现在数据分析师开始热衷于学习机器学习的原因。03结语数据分析和语言学习非常相似,它们都是一项通用型技能,是不可或缺的,入门也都简单。但要成为语言学家的难度也是非常大的,而且这方面的需求也小,难以实现价值。而钻研某一领域的语言,如历史、文学、哲学的难度相对来说就要小,最主要的是需求大、门槛高、容易产生价值。总之,这都是一个广度和深度的问题。具有广度简单,但掌握广度难!最后,数据分析并不简单,简单的只是它的入门!
PowerBI 与 Excel 以及市面上大多数的数据分析软件一样,都属于分析工具。但是,用过Excel进行数据分析的朋友应该会发现,Excel有一些局限性。比如:1、一个工作表数据记录最多只能存储1048576条2、处理超过几万行数据时要做好随时死机的准备3、当数据分散在不同报表时不便于管理数据而Power BI恰好解决了上述局限性,人性化易操作的界面、不需要高级的IT语言知识、易于创建交互式动态图表、轻松处理海量数据...这些特点Power BI通通满足。Power BI有哪些功能?1. 打通各类数据源Power BI能够从各种数据源中抓取数据进行分析,除了支持微软自家产品如Excel,SQL Server等,各类数据库如Oracle,My SQL,IBM DB2等,还支持从R语言脚本,Hdfs文件系统,Spark平台等等地方导数据。下图是Power BI的数据导入窗口:Power BI还支持直接从网页抓取数据。2. 易用性(无需编程)笔者给自己的定位是一枚数据科学家,因此不会也不能将过多精力放在可视化工作上。毕竟数据库/数据仓库系统架构,数据挖掘算法研究等工作更是重中之重。而Power BI采用的拖拉控件式图形化开发模式,将我从可视化的泥潭中解放出来,把更多精力投放到数据管理,算法研究,业务沟通上。下图展示了Power BI干净而清爽的工作界面:这里展示的仅仅是一个方面,绝大多数商业公司出品的软件在易用性方面完爆开源产品。3. 图表颜值高下面这些图是笔者10分钟不到就做好,稍加美化就能达到大部分客户在颜值上的要求了:Power BI vs 其他同类产品Power BI由四大组件构成:1. Power Query(数据查询)2. Power Pivot(数据建模)建立多表表关系实现数据管理3. Power View(数据交互展示)Power BI vs 其他同类产品:1. Power BI VS Excel都是微软自家产品,但Excel更全面且更专注于数据分析,而Power BI则比较精简且更更专注于报表可视化。另外这两个产品也是相互打通的,据说最新版本的Excel集成了Power BI插件,而Power BI里的数据分析功能也和Excel相似。2. Power BI VS R语言ggplot2ggplot2其实是R语言的可视化包,因此对于熟悉R语言的人来说,使用ggplot2会非常得心应手。同时由于ggplot2是由编程语言R驱动,因此它在定制化方面肯定做得比Power BI要好。但这也带来了一些代码量,不是每个人都喜欢。3. Power BI VS Python matplotlib相对Power BI而言,matplotlib更受程序员群体的欢迎。一个特点是代码量较大,笔者本人非常讨厌,真不知道为什么那么多人支持 = =#。那些用matplotlib做的比较好看的图,代码量动辄几十行上百行,说好的"人生苦短我用python"呢?当然,如果您确实需要经常做一些精细定制化的图形,也可以考虑使用它。4. Power BI VS echartsecharts专用于网页图表制作,对浏览器兼容特别好。但它一般是给前端程序员用的,需要编程语言javascript驱动,不推荐数据分析师使用。5. Power VS 其他商用BI工具(如Tableau等)这些商用BI工具的技术通常来说比较专有化,这也就意味着很难找到人交流学习。因此,使用这类工具要慎重,请仔细考虑好具体使用环境和详细业务场景是否合适后再学习吧。综上所述,这些可视化工具并没有单纯的优劣之分,用哪种得具体问题具体分析。一句话,如果你想糙,快,猛地制作还不错的报表,那么就快快学习Power BI吧。Power BI可视化思想使用Power BI进行可视化的总体步骤如下:1. 首先从数据源导入数据。Power BI支持的数据源格式非常多;2. 然后在Power BI后台区进行数据塑性。数据导入后,必须确定好数据列名,数据类型是否正确,是否需要进行切分工作,是否需要生成汇总表等等;3. 最后在Power BI的图表区进行报表绘制。具体工作中,这步和上一步工作迭代进行,我们需要不断对数据进行塑性,并基于塑性好的数据绘制出各种报表。学习Power BI的好处1. PBI中的Power View可能会让业务人员、领导眼前一亮,就是大家常说的动态图仪表盘,在PBI中操作很简单2. PBI中的Power Query、Power Pivot很实用,特别是多表、数据整理方面,很强大,可以结合excel快速完成数据整合和统计3. 要做一个小BI系统的话,PBI很适合,而且短平快,可以让领导看到成果,也可以作为分析思路展示的demo,效果很不错4. 有时候我们所想和领导所需会有一些偏差,为了提高效率,建议用PBI做分析的模板和框架与领导确定,这样你的分析思路和输出结果一目了然,只要方向和形式正确,你的报告不会差唯心鸭z_zuobiao在实际的工作环境中,Excel的图表更多是为了汇报,分析成果的交流讨论,而PBI、tableau样式的主要是自己用或者提供给业务方用,比如监督日常业务的变化、运营健康度等,更像是数据产品的能效。也可以作为分析思维梳理和展示的形式,PBI除了强大的动态图表功能,还支持各种数据形式的导入、而且在多表合并、多文件合并、数据整理方面也有很多优势,可以与excel互补,提高数据处理分析的效率。各平台同名“职坐标在线”
就职于某电商导购平台时,笔者有幸参与过一次关于“文案引导对购买行为影响”的数据分析,当时叫做ABtest。那是我第一次接触数据分析,也是我第一次感受数据分析的魅力。之后,身边的很多朋友开始与数据分析结缘,这才激起了我对数据分析的那股浓浓的兴趣,这也让我认识到从编辑转行到数据分析师的可能性。有数据,你还得会分析百度百科上对数据分析师的定义是,不同行业中专门从事行业数据搜集、整理、分析,并依据数据做出行业研究、评估和预测的专业人员。简言之,有了数据之后,你还得会分析。在数据为王的时代,尤其是越来越强调大数据的时代,各行各业愈发离不开数据分析师这一岗位。如何产生数据?数据时代,你的任意举动都有可能产生数据,只不过有些被记录,有些没被记录。你的一次选择,平台会根据你的选择来分析你的兴趣、爱好。你的一次称重,平台会根据你的体脂率,建议你的营养摄入。这些都是数据,这些一旦被利用起来都是有价值的。为什么要分析?当今时代,社会的进步、经济的发展、企业的规划等,都是经过理性思考之后,才得到的。数据时代,这些理性思考离不开证据支撑,这些证据包括数据。在掌握大量数据之后,我们需要通过分析手段,才能转换成有价值的东西,更好地助推企业的进步,乃至经济的发展。据了解,世界500强企业中,有90%以上都建立了数据分析部门,其中IBM、微软、谷歌都在积极投资数据部门、培养数据分析团队,越来越多的企业、组织开始重视企业的数据资产,数据分析、处理能力成为极为重要的技术手段。数据分析师的技能说实话,当我看到数据分析师除了需要熟知一些基本工具、懂得一些理论知识,还得具备数据分析敏感力、逻辑思维能力、归纳能力、批判性思维能力、交流沟通能力、责任力等能力时,笔者一直处于懵逼的状态。这到底是“蜀道难,难于上青天”还是“万事开头难”。我虽然不喜欢“特别轻松”的极端乐观主义说法,但我更不喜欢“白了少年头”的悲观主义说法。接下来看看数据分析师需要学习那些东西,毕竟这些才是硬核的。就像是编辑之于word,作为一名数据分析师,我们需要掌握一些基本工具,比如数据分析师三板斧:EXCEL、SQL、Python。EXCEL大家比较熟悉,这里主要掌握vlookup、透视表等,基本上就可以了。那我们着重看一看SQL、Python这两个。SQL,这个可以追溯到二十世纪七十年代的语言,历经40余年经久不衰。结构化查询语言(Structured Query Language),简称SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据、更新和管理关系数据库系统。在接触SQL之后,不知道你们什么感觉,笔者反正是一头雾水。不过对于学习SQL,可以读一些数据,比如《SQL基础教程》、《SQL必知必会》。另外,反复练习也是学习SQL的关键,感兴趣的网友可以通过牛客网、leetCode学习。偶然的一天,看到有人在朋友圈晒出学习Python的图片,并配以文案:与Python蜜月期宣布结束。弦外之音,Python学起来并没有那么容易。其实,作为一种开源免费、通用型的脚本编程语言,Python功能比较强大,可以进行Web开发、PC软件开发、Linux运维,还是火热的机器学习、大数据分析、网络爬虫等,Python都能胜任。数据分析师只需要掌握Python的基础语法和数学科学的模块即可,学习课程可以从网上找一些课程,或者直接报班。当然,还有R、Tableau、Tableau、 Forecasting······不可不接触的统计学大概是数学不好的原因,统计学的书籍看起来像天书。不过,对于数据分析从业人员来讲,统计学是必须学的基础之一。统计学在科技、工业、金融领域有着重要的应用,可以帮我们了解各种技术背后的想法,并且掌握如何使用,当然统计学更是培养数据科学家的基本要素。因此,要当好数据分析师,统计学是不得不接触、不可不接触的学科。那么统计学都有哪些方法,诸如线性回归、分类、重采样方法、子集选择、收缩、降维、非线性模型、基于树的方法、支持向量机、无监督学习等。这些都学习统计技术活方法。学习统计学更像是数据分析的根本,不至于依葫芦画瓢。通过理解统计学分析的基础,可以让团队有更好的方法,便于更好地进行抽象思维。大数据时代,数据分析师的角色当今社会,大数据是炙手可热的话题之一,至于什么是大数据?个人比较喜欢Gartner作出的定义:大数据是一种基于新的处理模式而产生的具有强大的决策力、洞察力以及流程优化能力的多样性的、海量的且增长率高的数据资产。严格意义上,大数据不仅指海量的数据,还包括了数据分析的过程。大数据时代,企业将拥有越来越多的数据资产,这个数据经过提取、分析,再加以利用,势必对企业的发展有很大的助益,因此数据分析的过程或岗位越发关键。据悉,2020年大数据行业的然采需求将达到210万人,未来5年需求量在2000万人。数据时代,数据分析人员将成为刚需。写在最后:近年来,数据分析师将成为企业业务转型之后刚需的岗位之一。在看到朋友纷纷投身学习数据分析之后,不由得感叹,人无远虑必有近忧。不过,通篇看完之后,还在徘徊的你,是否打算抄起《统计学》学习数据分析这一“天书”式的学科。学海无涯苦作舟,书山有路勤为径!
在剖析数据的过程中,有了数据剖析的思路,就需要通过适合该场景的剖析办法进行剖析,以进行规则的探究。那么,数据剖析的基本办法是什么呢?今日就跟从小编一起来了解下吧!1、比照剖析比照法能够发现数据变化规则,运用频频,常常和其他办法调配运用。2、帕累托剖析帕累托规律,源于经典的二八规律,即百分之八十的问题是百分之二十的原因所形成的。帕累托图在项目管理中首要用来找出产生大多数问题的要害原因,用来处理大多数问题。在帕累托图中,不同类别的数据根据其频率降序摆放的,并在同一张图中画出累积百分比图。帕累托图能够体现帕累托原则:数据的绝大部分存在于很少类别中,极少剩余的数据分散在大部分类别中。这两组常常被称为“至关重要的极少数”和“微乎其微的大多数”。3、聚类剖析聚类剖析归于探究性的数据剖析办法。一般,我们利用聚类剖析将看似无序的目标进行分组、归类,以到达更好地理解研讨目标的意图。聚类成果要求组内目标相似性较高,组间目标相似性较低。在用户研讨中,许多问题能够借助聚类剖析来处理,比方,网站的信息分类问题、网页的点击行为相关性问题以及用户分类问题等等。其中,用户分类是最常见的情况。关于数据分析的基本方法是什么,青藤小编就和您分享到这里了。如果你对大数据工程有浓厚的兴趣,希望这篇文章能够对你有所帮助。如果您还想了解更多数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。
编辑导语:我们在进行数据分析时,经常会遇到一些问题,但是关于数据分析的理论性文章很多,落到实处分析如何解决问题的却很少。本文作者为我们总结了一些常见问题,并且根据问题提供了解题思路。讲数据分析体系的文章很多,经常是开篇一句:互联网分析体系……,下边几百个指标blabla汹涌而出。搞得很多同学很晕菜:这么多指标,实际中到底怎么看?今天系统讲解一下,话不多说,直接上场景。场景:某视频APP内容运营,每天会固定输出游戏主题节目,节目以介绍游戏为主,目前暂无带货环节,也没有其他KPI考核,就这么先做着。每一个视频,有:播放次数、播放人数、人均播放时长、会员观看数、10%/30%/50%/90%播放完成数、单个视频发布后首日至第七日每日播放数据;还能分成:仅PC端播放、仅移动端播放,PC+移动端播放……同时由于是自己的平台播放,所以能统计到每个用户站内其他视频浏览行为。问题是:这一堆指标该咋看?一、常见问题很多同学会直接把这一堆指标铺出来:PC渠道的播放次数、播放人数、人均播放时长……移动端的播放次数、播放人数、人均播放时长……本周的、上周的、上上周的……本次的、上次的、最近10次的……一大堆指标摆完,发现个严重的问题:这一堆说了啥呀!因为没有刚性考核的KPI,因此很难讲清楚到底多大算好。你说播放次数越高越好吧,播放次数本身是个经常波动指标,今天高了明天低了,这么分析法得弄死自己,还没分析完为啥不好,丫指标又变好了!而且但看一个指标也显得不科学,比如有的视频就是播放很多但人均时长很短,还有一堆人涌过来看,然后秒退的情况。实际情况千奇百怪,连好/坏都没法评估,咋进一步分析:为啥好/为啥坏呢?二、解题思路会导致晕头转向的核心问题,在于:没有明确目标。如果是销售的业务场景,目标很清晰:销售收入/GMV。但是运营的场景不见得都有如此清晰、刚性的目标,特别是内容运营,本身就有“放水养鱼”的作用,有好的内容积攒粉丝、吸引关注非常重要。无刚性目标,导致建立评价标准很难。如果只看一个指标,比如播放量,似乎有失偏颇。如果看两个、三个、四个指标,比如播放人数、10%跳出人数、人均时长,则指标间相互交叉,情况错综复杂,很难下结论。更不用说,很多新手会习惯性忽略建立标准环节。于是导致了大量铺陈数据,然后不知道下啥结论的晕头鸭子问题。如何在无刚性目标情况下,建立评价标准,读懂数据含义,是搭建体系的关键。三、认识问题,从单指标开始想理清头绪,当然得从一个指标开始。连一个指标的走势都没看清楚,就扯上二三四个,只会越看越晕。选第一个观察指标的时候,尽量选简单、直接、不用计算的指标,这样更容易看清楚情况,避免牵扯太多。因此在众多指标中,可以先看播放次数/播放人数(选一个)。假设先看播放次数,对单指标而言,肯定是越多越好。播放量是内容运营的基础,连看都没人看,其他的更谈不上了。但是这里要注意,观察:播放量指标是否有周/月/日的规律。如果有规律性波动,就不能简单地说:昨天比今天高,所以昨天好,如下图:假设播放量有周波动规律,则可以建立单指标的简单评价标准:以周为单位观察,数值越大越好以日为单位观察,数值越大越好超过自身类型月平均水平,超过越多越好这样就能对播放次数,这样的单个指标讲清楚:好/坏。四、从单指标到多指标整明白了一个指标,可以加入其他指标。在加入其他指标的时候,要首先观察:两指标之间关系。有可能两指标相关系数高,有可能相关系数低。这两种情况下处理方法不同。相关系数高:比如播放次数和播放人数,两个指标很有可能高度相关。一个视频玩家短时间内可能只看1次就够了。高度相关的两个指标,在评价好坏时不需要重复评估,看一个就好了。这样能减少数据干扰,更容易得出结论,如下图:相关系数低:比如播放次数和人均时长,不见得高度相关。很有可能有的视频太过标题党,标题太刺激,配图很色诱,把玩家骗进来结果发现货不对板。如果出现两个指标相关度低,就能用矩阵分析法,把视频分类,如下图:经过这一步梳理以后,就能对两个指标情况做出判断。理论上播放次数越高越好,但人均时长不能低于一定水平,或者10%跳出用户比例不能超过一定水平,这样就能对每一期视频进行评价。有了评价,就能做出进一步分析。五、从多指标到原因解读评价了好/坏,就能进一步分析:为什么好、为什么坏。到这一步,就会发现,现有数据指标的问题:虽然看似一堆指标,可都是结果性指标。并不能直接从指标里推出:到底为啥用户喜欢看。这时优先考虑的是:补充数据,看看添加哪些数据能解释清楚问题。首先想到的是视频本身的数据,视频本身可以有多种标签:视频主题:讲哪一类游戏视频内容:游戏八卦、玩法、比赛……视频讲解:找技术高手还是找个美女亮腿……视频时长:太长的可能中间关掉的多发稿时间:选播放好的时间发做内容运营,首先得对自己做的内容有清晰的了解,打好标签,再做其他工作。有了标签,单纯地结合标签分析结果指标,也可能得出一些有用的结论,比如:5分钟比10分钟效果好美女亮腿比男主持人效果好讲比赛比讲八卦效果好这些已经足够优化运营了,更进一步的还可以结合用户画像来看,比如:观察用户看别的游戏类视频行为,给用户喜欢的游戏类型,游戏内容贴标签;观察用户近期关注的热点内容、流行的梗;观察用户更喜欢技术宅还是美女。有了这些用户标签,可以查看:目前观看视频的用户群体是否是目标群体;根据群体规模大的用户,制作新的内容;根据用户近期关注的话题、主播喜好,选话题和主持人。当然,并不见得投其所好一定有效,更有可能有“标题党蹭热度”的效果——播放次数很多但看一眼就跳出。所以最后还是得结合优化前后效果,做最终定论。六、小结搭建数据分析体系可以很简单,如下图:真正阻碍搭建指标体系的,是:数据间没逻辑,写的越多,看得越晕;没有刚性KPI做统领,不知道怎么评价好坏;只有结果指标,不能解释原因。因此在观察一个业务的时候,一开始宁可看的指标少一点,先观察出规律,再看指标间关系,这样更容易让众多指标关系清楚,读出含义。本文用的方法还是先抓关键指标的方法,有的同学会问:如果一定用N个不相关的指标评估一个业务,该如何做呢?下一篇分享一个业务评估模型的做法,敬请期待。#专栏作家#资深咨询顾问,在互联网,金融,快消,零售,耐用,美容等15个行业有丰富数据相关经验。本文原创发布于人人都是产品经理。未经许可,禁止转载题图来自Unsplash,基于CC0协议。