欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
数据挖掘与分析的六种经典方法论返祖

数据挖掘与分析的六种经典方法论

最近梳理了一下数据挖掘与分析的常用方法论,这里简要介绍6种模型。1、CRISP-DM 模型CRISP-DM是CrossInstry Standard Process for Data Mining(跨行业数据挖掘标准流程)的字母缩写。CRISP-DM是由一家欧洲财团(时称SIG组织)在20世纪90年代中后期提出来的,是一套用于开放的数据挖掘项目的标准化方法,也是业内公认的数据挖掘与分析的通用方法论。2、SEMMA模型SEMMA是抽样(Sample)、探索(Explore)、修订(Modify)、建模(Model)和评估(Assess)的英文首字母缩写,它是由SAS研究院开发的一款非常著名的数据挖掘与分析方法。SEMMA的基本思想是从样本数据开始,通过统计分析与可视化技术,发现并转换最有价值的预测变量,根据变量进行构建模型,并检验模型的可用性和准确性。3、DMAIC方法六西格玛(Six Sigma,6 Sigma)是一种项以数据为基础,追求“零缺陷”的质量管理方法。六西格玛在商业中应用是DMAIC,包括五个步骤:定义(Define)、度量(Measure)、分析(Analyze)、改进(Improve)和控制(Control)。DMAIC方法在商业领域和环境中已得到了成功应用,它在数据挖掘项目中也能寻得一席之地。4、AOSP-SM模型AOSP-SM是ApplicationOriented StandardProcess for Smart Mining 的首字母缩写,翻译成中文是“应用为导向的敏捷挖掘标准流程”,它是思迈特公司(SMARTBI)基于跨行业数据挖掘过程标准(CRISP-DM)和SAS的数据挖掘方法(SEMMA)两种方法论总结而来的一种面向应用的用于指导数据挖掘工作的方法。5、5A模型SPSS公司(后被IBM收购)曾提出过5A模型,即将数据挖掘过程分为五个A:Assess、Access、Analyze、Act、Automate,分别对应五个阶段:评估需求、存取数据、完备分析、模型演示、结果展现。6、数据挖掘与分析的“七步法”“七步法”分为七个步骤,分别是:业务理解、数据获取、数据探索、模型构建、模型评估、策略输出、应用部署。“七步法”更侧重从乙方的视角来完成用数据挖掘及其应用的闭环。作者: jesse huang76 分享数据产品设计的心得,记录数据跨界运营的经验和感悟。连接数据、创新价值!

采茶女

如何用常用的分析模型进行数据分析?

编辑导语:互联网的流量红利褪去之后,流量获取变得越来越难,数据的重要性也逐渐凸显。本文作者介绍了两个常用的模型分析:漏斗模型、AARRR模型,并且分析了如何利用这两个分析模型做好数据分析。一、为什么我们要做数据分析?现在都在说互联网下半场,什么意思就是流量红利慢慢褪去,已经不是早前互联网时代刚兴起的时候,网民覆盖少遍地黄金,只要一个产品做出来,甚至不需要运营就有大量用户进来,而现在流量全部集中在一些头部的企业,再去分抢流量,势必头破血流。据国泰证券研究,电商行业获客成本不断攀升,2020年已经高到离谱,阿里平均获客成本704,拼多多163,京东392。在获客成本如此之高的情况下,精细化的数据运营成为不得不走的一条路径。二、两个常用的模型分析1. 漏斗模型最早是由一位美国的知名广告人提出的,叫做消费者购买漏斗。是对流程中各个环节的分解和量化,帮助我们找到问题并优化。像电商网站漏斗模型是最常用,当然了其他的产品也是可以的,只需要定义出核心的流程。拿电商举例:漏斗模型一般都可以做,但是你接下来是如何发现问题,如何提出假设,如何优化才是关键,这里面的核心是需要把握每个环节的流量情况,最好通过指标比例公式来拆解,不然只是一个访问的量是无法定位问题的。1)首页流量我们一般从外部渠道拉来更多的流量引流到首页,所以流量的质量很重要,我们一般衡量页面的流量指标一般通过这几个:页面UV点击率、停留时间、跳出率,一般用户对页面感兴趣会有更多的点击行为,点击行为就会产生点击率、跳转率等。页面点击率=页面点击次数/UV:点击率越高说明页面的内容能够吸引用户。当然我们也可以看某个功能点击率占大盘的点击率,来看首页的不同功能的流量情况;跳出率=通过首页进入就离开的次数/首页访问的总次数:跳出率越高,如果排除页面的问题,说明页面的内容对于用户期望相差甚远,,如果是低停留时间,高跳出率、低点击率说明页面内容质量不高或者渠道的用户质量不高。2)搜索商品—商品列表页搜索是站内流量的主要来源,承担着站内商品检索和商品布局分类的关键作用,一般围绕搜索的指标量有如下:详情页作为转化的关键路径,是用户决策的关键,所以一般分析详情页的质量可以从平均停留时间、加车数、立即购买数等:平均停留时长=页面停留总时长/UV数,一般关系着页面的综合因素:商品图片、价格、优惠信息、详情页、评价等;加入购物车数/立即购买数:说明意向客户的数量,如果意向数量不高只能说明,商品没有达到用户的需求,需要考虑页面综合因素。4)生成订单提交订单一般是转化的最后一环,目的是为了让用户尽快付款,这个里面衡量的指标有全局指标成交转化率、有效订单的转化率:成交转化率=提交订单用户数/页面UV,如果低,说明提交订单意愿不强烈,可能确认订单页布局有问题,可能地址填写不友好,可能价格优惠不明显等;有效订单转化率=实际付款订单数/生成订单数,如果不高,是否是支付页的问题,如果不是支付页问题那么可以使用push/短信催付。5)小结衡量一个页面“是否引发兴趣”的指标有:点击率、跳出率、停留时长,下滑加载到底部的比例。一般人的视线从上往下,最先看到头部信息,如果头部信息不够吸引,一般会进行滑动加载,可以看到达底部的比例和停留时长。2. AARRR模型这个模型是又称为海盗模型,最早是由麦克卢尔提出的,分别代表了产品生命周期的5个阶段,一般根据产品不同的阶段聚焦不同的目标而不是眉毛胡子一把抓。MVP阶段(初创阶段):定量分析,这个阶段用户量少,如果没有专业的分析工具,通过用户、亲朋好友的反馈也是可以帮我们做分析;增长阶段:留存分析,核心关注用户忠诚度,如果用户对你的产品没兴趣无法留下来,就算你拉再多的用户也是徒劳。我们都说用户就像水池的水,进水口就是新用户,水池的容量就是留存活跃用户,出水口就是流失用户,如果流失速度大于用户注册速度,迟早水池里的水就流尽了;营收阶段:渠道分析、交易额、LTV。接下我们重点看看获取和留存阶段如何做:1)获取:目的看渠道的质量我们一般会从各个渠道(搜索引擎,市场投放、新自媒体、线下活动、外部合作渠道等)去获取用户,我们一般会关注各个渠道的用户数量和质量,数量我们看拉新用户数,质量我们看通常的转化情况,收益我们看交易金额。一般我们基于“注册数”、“付费转化率”等两个维度建立渠道四象限分析,一般可以用excel散点图可以做成矩阵图,通过算出各个维度的平均值,之后通过横纵坐标交叉即可(有兴趣可以了解一下矩阵图的方法)。第一象限:注册量和转化率较高的渠道加大投放;第二象限:注册量较低,但是转化较高,可以和渠道方沟通曝光的策略等;第三象限:注册量低,转化也低,可以考虑废弃;第四象限:注册量高但是转化低,需要优化转化流程,或是考虑投放的用户不精准。如果企业本身有外部广告投放等,成本投入较大,基于(成本和用户转化率进行四象限分析),目的是筛选出低成本高转化的渠道。2)留存:留存分析留存是衡量产品价值的最有效的指标,一般分析留存我们都是基于如下的留存表进行分析,话虽如此,但是真的面对这张图的时候,很多人还是傻眼,不知道如何下手。友盟—留存分析表一般留存曲线分为三部分:震荡期、选择期、平稳期。但是有些产品几乎是没有平稳期,那么这样的产品就很危险,说明留存持续下降,迟早水池里的水在某一天都流干。一般在震荡、选择期关注新用户留存、平稳期关注功能留存,那如果留存偏低我们应该如何分析呢?3)新用户留存分析我们一般定义新用户留存,起始行为首次启动,留存行为可以定义再次启动或者是付费(业务上定义什么样的行为为留存即可),如果留存偏低我们就需要进行对比分析,一般留存和业务功能息息相关,可以将功能模块抽离出来对比分析(这个不仅是新用户留存分析可以用,在平稳期我们关注功能留存也很有用)。从这个里面就能很清楚看到,功能3带来的留存率相比其他更高,可以引导我们做出如下决策:新用户的留存方向从次日留存率看,其实围绕这功能3和4;功能模块的优化方向:首先要明确核心功能模块,如果核心功能模块留存不高,那就说明这个环节是需要重点优化的。小结:新用户的激活时间越快越好,最好是当天就能完成核心行为;用户流失前,尽量引导他们使用留存较高的功能,让他们体会产品的核心价值。4)用户分组分析分析留存用户和流失用户的区别,分析两类用户的特征,特别是流失用户,方法可以基于上面的漏斗模型,定义核心的路径,然后分析用户行为,具体流失于哪一步,然后针对性的分析。针对已流失的用户也可以寻求用户反馈,具体倾听他们的想法,因为什么原因没有满足你们的需求离开了,如果没有很好的第三方的分析工具花很长时间在分析上其实是典型的“捡了芝麻丢了瓜的行为”,直接寻求用户的反馈,也不失为一个有效的方式,快速决策验证比全局分析效率更快,因为用户真的不喜欢你的产品可以说短时间就卸载了。后面的章节我会具体讲解一下用户分析和解决问题的结构分析,希望能在数据分析之路上能帮助你们。本文由 @琛琛 原创发布于人人都是产品经理,未经许可,禁止转载题图来自 Unsplash,基于 CC0 协议

合乎大同

细说数据分析的类型、方法和技术

数据分析是收集,检查,清理,转换和建模数据的过程,以发现有用的信息并为业务决策提供有用的结论。使用分析或统计工具评估数据以发现有用信息的人被称为数据分析师。以可视形式呈现数据的过程称为“数据可视化”,主要目的是从原始数据中提取有用的信息,然后根据所分析数据的事实做出决策。为什么要进行数据分析?数据驱动的企业不断根据数据和事实制定决策,这样,由于拥有可用的数据来支持他们,因此他们可以更有信心采取行动。由于许多个人,企业都依赖于数据和事实,因此需要通过研究来制定更具战略意义的决策,以帮助其企业更有效地运作,从而避免犯下可以避免的错误,因此需要数据分析师进行数据分析以帮助分析数据,收集所有有用信息并提供做出正确决策所需的所有必要详细信息。如今,小型企业,离线和在线零售公司,医学界甚至体育界都使用数据分析。方法与技巧尽管用于数据分析的方法多种多样,包括数据挖掘,文本分析,商业智能,组合数据集和数据可视化,但它们都基于两个主要类别:定性和定量分析。定性分析定性分析是一种数据分析方法,主要回答寻求的问题。诸如为什么,什么或如何等问题通常通过定量技术来解决,例如问卷,标准结果,态度定标等等。定量分析通常,此分析是根据数字来衡量的。此处的数据以测量范围表示自身,并扩展以进行更多的统计操作。数据分析类型根据业务和技术需求,所有行业中都在使用几种类型的数据分析方法和技术。但是,数据分析的五种主要类型是:文本分析、统计分析(推理和描述性分析)、诊断分析、预测分析、规范分析。文字分析文本分析也称为数据挖掘,是一种使用数据库或数据挖掘工具分析文本以提取机器可读事实并发现大型数据集中模式的技术。文本分析的主要目的是从非结构化的免费内容中创建结构化数据,以形成业务信息。统计分析顾名思义,统计分析是一种执行多种统计操作的技术,例如数据的收集,分析,解释,表示和建模,以对数据进行量化,了解过去数据发生了什么然后应用统计方法。这种类型的分析中的数据通常是描述性的;例如调查和观测数据。许多数据分析人员喜欢将其称为描述性分析,即使这种分析有两类:描述性和推理性分析。描述性分析描述性分析是当今企业中最简单,最常见的数据使用方式,因为它通过总结过去的数据(通常以仪表板的形式)来回答“发生了什么”类型的问题。它分析完整的数据或汇总的数值数据样本,并显示连续数据的平均值和偏差–分类数据的百分比和频率。业务中描述性分析的主要功能是跟踪关键绩效指标(KPI),这些指标描述了基于所选基准的业务绩效。描述性分析的业务应用包括:KPI仪表板、月收入报告、销售线索概述。推论分析推论分析从完整数据中分析数据样本。通过推论分析,只需选择不同的样本,就可以从同一数据中找到不同的结论。诊断分析当描述性分析显示发生了什么时,诊断分析会根据从描述性分析中获得的见解找到原因,从而尝试了解“原因为何”,然后将其范围缩小以找到导致这些结果的原因。诊断分析也称为根本原因分析,它具有数据发现,挖掘和追溯等过程,是向统计分析迈出的一步,以提供更深入的信息来回答问题,这种分析的主要功能是识别数据的行为模式。如果您在业务流程中遇到新问题,则此分析可以帮助您找到该问题的相似模式,并且可能有机会对新问题使用相似的处方。预测分析预测分析用于根据当前或过去的数据进行预测。它使用从描述性和诊断性分析中总结的数据对事件的结果进行逻辑预测,以了解可能发生的情况。使用预测分析时,重要的是要注意预测只是一种估计;预测的准确性取决于质量和详细的数据。预测分析的业务应用包括:风险评估和欺诈检测、销售预测和营销活动优化、使用客户细分确定哪些线索最有可能转化.运营改进:预测库存和管理资源有助于改善业务运营。例如,航空公司使用预测分析来设置机票价格。规范分析规范性分析相应地结合了来自描述性,诊断性和预测性分析的见解,以确定采取何种行动方案来解决当前问题或做出战略性业务决策。它更强调可操作的见解,而不是数据监视。描述性分析旨在提供对已发生事件的洞察力,而诊断分析可解释发生原因的原因,而预测性分析则有助于对可能发生的事情进行建模和预测,而描述性分析旨在确定各种选择中的正确解决方案或结果,因为参数是已知的。规范分析的一个完美示例是人工智能(AI),因为AI系统会消耗大量数据以进行连续学习,然后使用所学的信息,数据或模式来做出明智的决策。当前,大多数大数据驱动的公司都在使用规范性分析和AI来改善决策。小伙伴们在考虑转行或择业时可以考虑从事数据分析师这一行业,美好未来在等着大家~

异教徒

大数据分析挖掘有哪些方式?

大数据剖析发掘,从可视化剖析、数据发掘算法、猜测性剖析、语义引擎、数据质量管理等方面,对杂乱无章的数据,进行萃取、提炼和剖析的进程。那么,大数据剖析发掘有哪些方法呢?今天就跟从小编一同来了解下吧!1、可视化剖析可视化剖析,指凭借图形化手法,清晰并有效传达与沟通信息的剖析手法。主要应用于海量数据关联剖析,即凭借可视化数据剖析平台,对分散异构数据进行关联剖析,并做出完好剖析图表的进程。具有简单明了、清晰直观、易于接受的特色。2、数据发掘算法数据发掘算法,即经过创建数据发掘模型,而对数据进行试探和核算的,数据剖析手法。它是大数据剖析的理论核心。数据发掘算法多种多样,且不同算法因根据不同的数据类型和格局,会呈现出不同的数据特色。但一般来讲,创建模型的进程却是类似的,即首要剖析用户供给的数据,然后针对特定类型的形式和趋势进行查找,并用剖析结果定义创建发掘模型的最佳参数,并将这些参数应用于整个数据集,以提取可行形式和具体统计信息。3、猜测性剖析猜测性剖析,是大数据剖析最重要的应用领域之一,经过结合多种高级剖析功能(特别统计剖析、猜测建模、数据发掘、文本剖析、实体剖析、优化、实时评分、机器学习等),达到猜测不确定事情的目的。协助分用户析结构化和非结构化数据中的趋势、形式和关系,并运用这些目标来猜测将来事情,为采取办法供给依据。4、语义引擎语义引擎,指经过为已有数据添加语义的操作,进步用户互联网查找体会。5、数据质量管理指对数据全生命周期的每个阶段(计划、获取、存储、同享、维护、应用、消亡等)中可能引发的各类数据质量问题,进行识别、衡量、监控、预警等操作,以进步数据质量的一系列管理活动。关于大数据分析挖掘有哪些方式,青藤小编就和您分享到这里了。如果你对大数据工程有浓厚的兴趣,希望这篇文章能够对你有所帮助。如果您还想了解更多数据分析师、大数据工程师的技巧及素材等内容,可以点击本站的其他文章进行学习。

艾琳娜

数据运用调研 助力精准治理

为校核数据分析结果和找到数据分析方向,11月24日上午,贵州省高速公路管理局路政管理科组织了贵阳高速公路管理处、贵州省高速公路联网收费管理中心、贵州省高速公路监控与应急处置中心(以下简称“省监控中心”)、贵州高速集团贵阳营运中心及入口称重检测设备软、硬件维护等有关单位到秦祺收费站、牛郎关收费站、贵阳北收费站开展数据运用实地调研和座谈交流。在调研和交流现场,省监控中心汇报了2020年入口称重检测设备数据分析内容,各单位就报告中入口称重检测设备超过认定标准5%仍标记为检测通过、出现车货总重大于200吨、设备使用天数仅几天等异常情况进行了现场查看和原因分析,就解决异常情况展开了讨论和交流。下一步,省高管局将按照工作要求,加强对入口称重检测异常数据的监测,找准异常数据原因,强化对设备运维实施精准管理和监管。了解数据情况座谈会现场责任编辑 韦景全【来源:省高管局】声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。 邮箱地址:newmedia@xxcb.cn

钓球

《数据要素》作者赵刚:数据交易的八种模式及其利弊分析

数据一般具有非竞争性、非排他性,使得其并不适合作为私人产品进行交易,除非采用某种技术手段限制数据被重复使用。但是,对数据需求方而言,政府开放和共享的数据不能满足数据分析的要求,又迫切希望通过交易方式来获得更多数据。因此,产生了一些数据交易的模式。当前,数据商品的交易模式有如下八种,是供求双方根据自身需求的交易模式的选择。1、直接交易数据模式交易双方就数据交易的内容和方式进行详细约定,签订数据交易合同,一方交货,一方付款,完成交易。通常,购买方通过某种渠道了解到销售方出售某类数据,经与销售方协商后,签订合同,购买数据。这种模式,比较适合线下“一手交钱,一手交货”的交易,在数据黑市比较普遍,但交易不透明,市场监管难度大。此类交易模式,卖方很难控制买方的行为,特别是买方复制数据并与其他第三方再进行交易的行为。例如,A以1万元的价格出售1份数据给B,却很难保证B不拿这份数据复制100份,以每份1千元卖出去。此类交易模式,也容易侵犯数据主体的权益,购买的数据可能涉及较多法律风险。2、数据交易所模式政府牵头成立了一些数据交易所,在政府监管下,在集中场所进行数据供求关系撮合。比如贵阳大数据交易所。类似于股票交易市场,在数据交易所,买卖双方必须注册成为市场成员,通过交易所平台进行数据买卖。但是,由于信息不对称,数据易复制,交易双方担心数据被第三方交易所截留,进行非法套利。早期政府开办的数据交易所,数据交易很清淡。交易双方一旦达成某次交易,就可能不再依靠数据交易所进行下一次的交易。3、资源互换模式在移动app中,app服务商通过提供免费的app应用服务,换取用户对个人数据的使用权。资源互换模式也存在一些问题:第一,互联网平台与用户之间地位不平等、信息不对称,用户被迫接受数据授权协议,可能用重要个人数据换取了不太有价值的资讯服务,互联网平台也可能过度收集用户数据,或把从甲业务中收集到的个人数据用于用户不知情的乙业务上,从而造成隐私侵犯和数据滥用问题。第二,用户紧密依赖于互联网平台,难以行使对数据的可携带权,很难将自己的数据开放给或迁移到第三方平台上。第三,用户难以获得对个人数据的合理收益权。4、会员账户服务模式数据比较适合俱乐部交易模式。销售商出售数据平台的会员服务,消费者购买会员服务后,可以获得与会员层级对应的数据访问权益。5、数据云服务交易模式销售商不直接提供数据,而是提供数据应用的云服务或数据应用系统,消费者购买云服务或系统,通过服务获得数据应用价值。6、API访问模式销售商通过应用程序界面(Application Programming Interface,API)将用户数据开放给经授权的第三方机构,以促进用户数据的开发使用。销售方既限定哪些数据可开放,也限定向哪些机构开放。7、基于数据保护技术的数据交易使用密码学和隐私计算技术,包括可验证计算、同态加密、安全多方计算、联邦学习、区块链技术等,实现数据加密,从而提供手段限制或规定数据的重复使用次数,推动数据产品转换为私人产品进行交易,或者在不影响数据控制权的前提下交易数据使用权,以便从技术上构建数据交易的产权基础,并能计量数据主体和数据控制者的经济利益关系。8、利益相关方的数据平台+数据的联盟交易模式数据消费者共同出资,投资一家“数据平台+数据”的服务商,这家服务商负责生产数据产品,并将产品出售给所有利益相关方。Markit公司成立于2003年,其股东包含主要的CDS做市商。这些金融机构股东把自己的CDS数据上传到Markit,Markit整合得到CDS市场数据后以收费方式对外提供,包括定价和参考数据、指数产品、估值和交易服务等。Markit的股东金融机构在不泄露自己商业机密的情况下,不仅从Markit的工作中获知CDS市场整体情况,还从Markit的业务增长中获得投资收益。各种数据交易模式的优缺点分析如下表。从数据交易的特点和趋势看,会员账户服务、数据云服务、基于数据保护技术的数据交易正在逐步成为主流的数据交易模式。表 八种数据交易模式及利弊比较本文节选自2021年1月出版的作者专著《数据要素:全球经济社会发展的新动力》。

惊魂恋

洞察细节、深究业务——数据分析的进阶

编辑导语:在我们的日常工作中,数据分析在其中起到了很大的作用,比如在业务流程中,不同阶段进行的分析也有所不同,根据重点进行数据的分析与拆解,能够更好的解决问题;本文作者分享了关于数据分析中的洞察细节深究业务,我们一起来了解一下。上一期我们梳理探讨了如何入门数据分析,并从更高的视角——即战略的视角来切入,对行业有了具象、画面感式的了解,知晓了公司战略层面的目标,对“业务”有了全局整体的认识,包括各条业务线的布局及相互支撑、影响等,而这些内容,是我们进行数据分析的初步框架,《从战略层次全局看待业务——构建数据分析的“框架”》。那么,本期继续从数据分析的入门为契机进行延伸,采用降维的视角,把数据分析中的每一个环节进行彻底解剖;解剖的目的,是显露出更多细节、获得更多信息、洞察一切细节来深究业务。接下来我们将讨论,如何通过洞察细节来深究业务,而这也是从数据分析入门到进阶的过程!洞察一切细节深究业务——数据分析的进阶如果做“数据分析”没有联系和结合具体业务知识的话,那么我们分析的“数据”并不一定是业务人员需要的数据。可以说,这样的“数据”就是一堆数字,没有任何意义的,是不会产生任何价值的。而所谓的数据驱动增长、提高决策效率、降本增效等,就都是空谈!因为任何业务都有自己的流程,我们了解了关键节点的信息输入和信息输出,把每个环节拆解地更细,把每个信息拆出更多维度;并且通过走访客户,找更多的人,询问更多内容,获取更多信息和数据。我们可以更加获得业务的第一手资料,更加贴近业务和客户诉求;可以说,越多的信息,就越能解读出更多的细节,而我们利用好这些细节的信息,那么,就一定能找到这些业务细节与数据之间的联系,从而分析出更有价值的结论。那么,接下来,我们就来探讨一下,如何洞察这些细节探究业务、把每一个环节彻底解剖、暴露出更多细节、获得更多信息呢?我们可以从三个方面去洞察一切细节,进而深究业务:通过拆解主要数据指标:把每个环节拆到更细,把每个信息拆出更多维度。通过调研了解更多业务信息:找更多的人,询问更多内容,获取更多信息和数据。提出自己对业务的洞察。01 通过拆解主要数据指标首先,对于主要的数据指标,层层分解;同时根据分解的细分指标,了解每个业务环节的关键指标。其次,拆解是在分析时将事物拆分成各个组成成分的过程,拆解方法则是同一维度直接相加、同一流程直接相乘、其他关系理逻辑/找公式。需要注意的是:需要拆解的数据指标均处于同一维度,并可以通过相加的方式将其拼起来,例如:时间维度:新时间、旧时间;性别维度:男性、女性;地区维度:东、西、南、北;位置维度:内部、外部等。需要拆解的数据指标处于流程的某一环节当中,可通过对流程拆解的方式找到原因。需要梳理清楚数据指标之间的逻辑关系,确认变量之间的公式后再拆解,往往条件和结果之间并非同一维度或同一流程的单一关系。这里可以使用MECE(Mutually Exclusive Collectively Exhaustive)模型,这个模型名字上的意思是“相互独立,完全穷尽”;这是来自于《金字塔原理》这本书中的说法,意思是业务拆解要全面,且相互独立。这个原则比较好理解,如果拆解的不全面,有遗漏,就可能找不到最终原因;如果拆解的子模块互相影响有交集,就没办法清晰确定是哪个部分的原因;拆解完了之后,定义衡量每个模块的指标以及确定做的好坏的标准。比如tob 软件的客户成交量拆解:如收入指标客户成交量可以按照以下的方式进行拆解:客户成交量=客户流量*付费会员转化率*客单价。完成了拆解,还远未结束,我们需要了解每个环节对应的执行目标和相应的数据指标,来衡量环每个环节的完成效果和质量。对于产品而言,需要优化产品来提高各环节的转化率;对于内容运营而言,需要丰富有趣以及干货的内容来提升文章阅读量;对于渠道运营,需要筛选优质渠道来增加更多流量;对于产品运营,需要思考如何定价来提高付费用户数和订单数,等等。通过不断的数据指标拆解、数据验证的过程,找到业务模式背后的逻辑,从而更深入的了解业务。02 通过调研了解更多业务信息要对业务有深入的了解,除了数据洞察以外,还需要用通过各种渠道去补齐信息,比如阅读行业书籍、实地走访、与用户沟通、分析数据等方式;其次是学会分析行业或者公司内数据;最后是用户调研和实地走访!对于行业方面的书籍,常用的渠道有:《全球财富》、《战略与风险管理》等。对于实地走访,常用的渠道有:随机走访、有针对性的走访等方式。对于常用的数据方面的资源,常用的渠道有:国研网数据库、国家统计局、中经网、艾瑞网、中国经济信息网数据库等。事实上,调研的方式千万中,可供调研的渠道也有千万条,朋友们可以通过平时的观察和思考,搜集最适合自己使用的渠道,并进行相应的储备和使用。03 提出自己对业务的洞察理解业务,更多是理解了业务决策背后的原因、理解了某个业务线各个角色的诉求和痛点、理解了自己做的产品和项目对业务的价值和影响等。这个业务的用户是谁?这个业务解决了什么痛点?流量如何来的?内容如何来的?生态情况怎么样?如何商业化的?再走到宏观上去,看看行业情况怎么样,竞争对手怎么样,最后回到数据分析,这个业务哪个环节出现问题,主要对业务人员诉求又是什么。最后,提出目前业务遇到的瓶颈,困难、出路等。04 总结以上是如何洞察一切细节深究业务相关内容,然而,深究业务的本质其实就是客户和利润,详细来说业务是以客户为中心,通过各种运营的手段,将产品和服务提供给客户,同时获取利润。什么是用户?产品对应的目标群体和受众,即目标用户,目标用户分为实际用户和潜在用户;基于假设的目标用户做需求分析,做产品功能设计与开发,通过用户分析重新定义目标用户,基于更加精确的目标用户需求迭代产品功能。产品/服务的核心和特点是什么?产品/服务的核心:解决需求,产品和服务是满足用户需求的一种形式。产品/服务的特点:核心需求稳定、迭代的成本周期高,产品/服务是相对标准化的,可复用。什么是运营?运营是为了帮助产品与用户之间更好的建立和维系关系。运营的特点:运营的种类非常丰富,可根据指标表现不断迅速调整动作。运营包含用户运营、内容运营、社群运营、渠道运营等。什么是利润?利润等于总收入减去总成本的差额。综述,什么是懂业务,初级数据分人员能够识别出该业务模式中四个要素分别是什么,高级数据分析人员能在具体的业务模式中能够理解这四要素之间的关系是什么。洞察一切细节深究业务即是数据分析的进阶!#专栏作家#多年互联网数据运营经验,涉猎运营领域较广,关注于运营、数据分析的实战案例与经验以及方法论的总结,探索运营与数据的神奇奥秘!。本文原创发布于人人都是产品经理。未经许可,禁止转载题图来自Unsplash,基于CC0协议

蓝霹雳

学会三种方法进行数据化运营

编辑导语:如今随着互联网的不断发展,很多时候都需要数据来解决问题,利用数据化运营进行分析,找到合适的运营策略;数据化运营最终是为了增长,所以要明确多方面逻辑,进行合理的安排;本文作者分享了关于三种工具学会数据化运营的方法,我们一起来了解一下。一、什么是数据化运营?为什么要数据化运营?为达成业务运营目标,合理使用数据工具指导运营决策的过程,就是数据化运营。它的核心是运营,更好的运营效果需要更精准敏感的运营策略,这就需要数据的加持。事实上,如今所谓基于互联网的运营,基本都是数据化的。二、如何数据化运营?1. 工具一:3A3R模型助你聚焦运营目标既然数据化运营的目标仍是运营增长,那就绕不开能为实现这一目标提供得力抓手的海盗模型,由获客(Acquisition)→活跃(Activation) →留存(Retention) →营收(Revenue) →传播(Referral)5个模块组成,在注重精细化运营的今天,洞察(Awareness)的重要性也愈发提升,便有了3A3R模型。从目标导向的逻辑看,企业的最终目标是获取商业利益,这也是营收模块的直接目标,而要实现这个目标,需要经营好活跃和留存两个模块,在这之前我们要有用户可经营,这就要依靠获客模块,客从哪里来?除了商业渠道,我们更希望是由优质客户的社交关系网笼络而来,这便是传播模块的目标,而能实现这些的前提,是我们能对潜在用户和市场有充分的洞察,从而制定出适合他们的运营策略。1)营收常见的营收方式有广告、中间收入、增值和金融等,常见的营收构成为:GMV =流量×转化率×单均价×复购率,故要提升营收可以从各构成环节着手。常见扩流策略有交叉引流+品牌联盟、KOL+新媒体渠、私域流量等。常见提升转化率策略有包装卖点、钩子商品、新品预售等。常见提升客单价的方式有产品套餐、满减及优惠券门槛等。常见提升复购率的方式有消费返券等。2)活跃、留存活跃和留存是产品生命力的直观体现。活跃意味着用户和开始认可产品的价值,是留存的前提,不同产品使用的活跃口径不尽相同,常见的有启动APP、登录APP、使用某一功能等。活跃统计的时间维度通常有月、日、每次打开频次和每日使用时长,使用哪一种和产品业务息息相关,通常统计周期越短运营难度就越大,所需资源就越多。留存意味着用户对产品价值有了比较强的认可,它的本质是某类用户用过 A,过了一段时间后又用 A。留存的要素是目标客群、考察周期和事件口径;目标客群一般包括新增用户、沉默唤醒用户和活跃用户三类,考察周期可分为次日、7日等,事件口径通常可分为业务留存(如朋友圈)、行为留存(如点击首页)和贡献留存(如发表文章),且务必前后一致。需注意留存指标存在滞后性,即当我们发现留存下降,用户早已离开产品不知道多久了,所以,留存数据重要的功能是做流失预警。提升活跃和额留存的策略非常多样,常用的有利益激励、任务体系、内容运营等,需注意为防止用户被拉回后又快速流失,用来激励用户的钩子需要是高频且低门槛的场景或服务;另外为提升运营效果,往往需要对用户分层,如对沉默用户进行唤醒运营。留存运营还有一个核心逻辑,即让用户的数据和好友都沉淀在产品中,通过提升“用户迁移的成本”来提升留存。3)获客拉新获客的目标,是基于用户洞察的结果,寻求合适的获客渠道、选择有效的用户触点、制定合理的获客策略。其中触点+渠道会共同完成触达用户并传递产品价值和主张的任务,触点影响流量数量,能直接接触用户的触点越广,能获取的流量就越多,渠道影响流量质量,因为不同的渠道所覆盖的用户特征并不相同。触达之后,我们需要用落地页和首页强调产品权益和强化压迫感,促使用户转化为新客;随后通过积分、优惠等方式将新用户分发到合适的产品场景中,以帮助其尽快熟悉产品和为后续的活跃和留存打下基础。4)传播通过异业合作、场景、营销获客等方式引入流量,往往成本较高,如今有两种常用降低获客成本的方式:私域流量和社交裂变,他们都是通过运营用户的社交关系来完成产品运营目标和品牌影响力传播。私域流量指企业自有的、可免费使用、可反复触达的用户流量池,可通过定位-引流-运营-转化”四个层面构建。裂变增长的核心是聚焦长周期的拉新+提升用户终身价值,定义为利用一切资源让更多用户更高频地使用核心产品功能,常见方法有提升漏斗模型转化率、使用邀请有礼类功能配合运营活动并整合线上线下资源共同促进增长。裂变增长的方案最好能有如下特点:较低的分享门槛、多变的奖励方式、使用过A/B 测试选取最优内容、用户的重要操作能有实时反馈,有良好的钩子策略引导用户完成流程等。5)洞察要想最大化提升上述各环节的运营效果,就需要针对多样的用户进行精细化运营,这就需要我们能精准洞察不同用户的特征和需求;这个过程一般需结合用户、行业、竞品等数据进行综合判断,尤其需注意在用户调研时避免幸存者偏差。6)聚焦通常我们使用3A3R模型最多的场景不是针对所有模块的全量运营,而是聚焦于单一模块的运营工作,此时我们的目标通常为该模块的ROI(投入回报率),要计算ROI的达成情况就要计算产出和投入,这就需要看后一模块的转化和前一模块的流入,即向前找流量、向后看转化、自身看画像。2. 工具二:指标体系助你量化运营业务当我们通过3A3R模型将运营目标聚焦到某一模块后,通常首先要了解该模块当前的业务水平、用户画像等,这就需要进行数据分析;然而不同行业、公司、部门、产品阶段所面临的业务形态很可能大相径庭,如何用数据承载这些迥异的业务,才能用标准化的数学工具进行分析呢?这就需要用到指标体系。指标体系的基础是业务指标化,指通过数值衡量业务状态。须注意既然目标是用数据承载业务,那么制定指标时就要选取那些最能反映业务状态的数值,且这些数值须是汇总计算而出的,因为明细数据并不具备业务意义。然而有些指标涉及因素非常多,我们很难靠单一策略带动增长,因此我们需要用结构化的方式根据逻辑关系将其层层拆分,以通过运营下层指标来带动上层指标,拆分得到的有逻辑结构的指标集,就是指标体系。对指标的拆分就是对业务的拆分,因此需要根据产品类型、阶段来具体分析,以得到一个能完整反应业务状况的指标体系;通常将位于架构顶层的1个或多个指标称为北极星指标,代表当前业务最关注的目标,而位于低层的指标和实际的业务更接近,因此也更容易针对其制定运营策略,从而提升北极星指标。当北极星指标出现异动时,若有与业务拟合度高的指标体系,我们就可以通过口径拆解、维度下钻等方式,自顶向下快速定位异动的原因。当低层指标出现异动时,通过指标体系,我们也可以自底向上评估异动的影响范围,如此便可以解决很大比例的业务分析问题;另一方面,我们也可以结合指标体系设定我们的组织架构,提升协作效率。3. 工具三:统计学助你制定精准策略前文提到了三种常见的业务分析需求:了解业务水平、定位异动原因、评估影响范围,根据这些分析结果通常我们就能制定精准的运营策略,而统计学工具就能基于指标体系来帮我们满足这些需求。当我们开始分析数据时,首先面临的问题是,面对动辄千百万且实时变化的数据,我们很难每次都全部拿到,就算拿到了,计算的时间成本也很高;这就需要样本检验工具,即通过随机抽样得来的样本数据来推测总体参数;这么做虽然不是100%精确,但通常我们也有95%的把握确定待估参数在某个够小的区间内。那么,面对一组组样本数据,计算哪些参数能描述业务水平呢?常用的有均值、中位数、方差、标准差、异常值等;另外,由这些参数构成的箱线图可以向我们非常直观地展示出这组数据的集中趋势和离散程度。在定位异动原因或评估影响范围时,数据的直观表现往往只能让我们对影响所关注指标的相关因素有定性的认知,既不能严谨地确定就是这些指标的异动影响了所关注指标,也无法了解影响程度到底有多大;此时就需要用到相关性分析工具,它可以通过相关系数p与1或-1的接近程度表示出我们所关心的若干指标变化的相关程度。当运营策略执行完毕,我们想了解效果时,就要用到方差分析工具,与样本检验类似,能让我们有很大的把握论证某指标在运营前后变化的显著与否,从而对运营效果好坏做出评估。通常亡羊补牢不如快人一步,我们希望不仅能在问题发生、策略执行后才能看到最终效果,也能在那之前进行相关预测,此时便需要时间序列和回归分析工具,他们分别可以针对间隔均匀的时间数据和你希望进行多维分析的指标数据对一定周期的未来数据进行预测。这是因为能长期发展的产品,其针对的用户核心需求和为满足该需求提供的价值基本是稳定的,故一定历史范围内的运营数据能在很大程度上反映一定未来范围内的运营数据特征。三、总结数据化运营的目的是运营增长,因此通常我们需要借助3A3R工具帮我们聚焦运营目标,它通过获客、营销、转化三个阶段形成运营工作的闭环,从中我们可以看到持续经营用户(尤其是老用户)和其社交关系的价值。在进一步落地运营目标时,指标体系能帮我们理清不同业务模块的逻辑关系;而后,我们便可以通过统计学工具精确地衡量业务水平、明确相关关系、评估策略效果和预测业务趋势,从而更好地完成运营工作。本文由@Wil. 原创发布于人人都是产品经理,未经作者许可,禁止转载。题图来自Unsplash,基于CC0协议。

数据分析入门之:三类数据统计分析策略(下)

上期,我们跟大家分享了了数据统计分析策略中的描述性统计分析,和部分探索性统计分析的相关内容,今天,我们接着为大家分享探索性统计分析的内容和推断性统计分析的内容。如果有的小伙伴没有看到上期的内容,可以回顾我们前面的内容:《数据分析入门之:三类数据统计分析策略(上)》接下来,我们继续讲探索性统计分析策略的案例。案例3:探索某电商的交易量,在PC端和移动端之间的比例变化为了清晰的展现交易量在PC端和移动端之间的比例变化,我们可以选择百分比堆叠条形图,将所有条形高度都标准化到100%,来展示数据占比。通过整理电商企业各端口的数据,我们可以得到上图这样的堆叠条形图。其中,横轴代表2014-2016年的各个季度,纵轴代表占比,图形的上半部分代表移动端,下半部分代表PC端。通过图片,我们可以直观的看到,移动端的交易量在迅速扩张,PC端的数据量则是呈现逐年递减的趋势。由此我们不难发现,自2014年到2016年3年间,电商行业的交易方式,逐渐由电脑操作过渡到了手机交易。3、推断性统计分析1)释义按照百度词条的解释:推断统计学是指,以概率论为基础,用随机样本的数量特征信息,来推断总体的数量特征,作出具有一定可靠性保证的估计或检验。推断性统计分析非常经典,但操作起来相对较难。相比探索性统计分析,它更加侧重于寻找定量的答案,通常是计算统计量和对应的概率P值。一般情况下,如果概率P值:P<0.05,则需要拒绝原假设;P≥0.05,则需要接受原假设。(注:0.05为默认的对比值。原假设即假设事件成立的情况,如样本均值等于某个值,两属性之间不相关,则样本服从正态分布,需要拒绝原假设;反之则需要接受原假设)2)案例为了便于大家理解,我们还是通过小例子,给大家阐述相关的内容。案例如下:(1)通过t检验,推断两样本间的均值,是否存在差异;(2)通过卡方检验和Pearso相关性检验,推断样本的两个属性是否不相关;(3)通过Shapiro正态性检验,推断样本是否服从正态性分布。下面,我们逐一给大家做相应的介绍。(1)t检验t检验也称为均值检验。该方法主要是通过验证样本的均值,从而判断样本是否满足某个常数;或者判断两样本之间的均值,是否存在差异。举个栗子:假设某品牌充电宝电容量标注的是数据是5000毫安。那么,我们应该如何验证这一说法的真实性呢?这就要用到t检验了。我们可以通过借助t检验的工具(基于Python),得到如下的电容量数据:接下来,我们就需要通过数据来做验证了。①提出原假设与备择假设。●H0:样本均值为5000毫安(原假设)。●H1:样本均值不为5000毫安(备择假设)。②计算统计量。通过计算,我们可以发现,所得的统计量为-0.694。从数据来看,我们不能直接说,该样本是否满足均值为5000毫安。由此,我们还需要对P值进行计算。③对比概率P值,下结论。P=0.5019915686890506结果显示,P>0.05,说明不能拒绝原假设。也就是说,样本均值为5000毫安的说法是正确的。这也说明,该商品不存在虚假宣传的问题。(2)卡方检验和Pearson相关性检验我们都知道,卡方检验主要用于验证两个离散型变量之间的独立性;而Pearson相关性检验,则是用于验证两个数值型变量之间的独立性。这二者既是相互独立的,也是互为补充的。下面,我们通过两组数据来给大家具体解释他们的特点。下面,我们来逐一解释这两种检验。下图是:三某班级学生的性别与其是否被大学录取的数据图。我们通过卡方检验来做验证。接下来,我们还是通过数据计算,来得出进一步的结论。①提出原假设与备择假设。●H0:学生的性别与其是否被录取相互独立。●H1:学生的性别与其是否被录取不相互独立。②计算统计量。从上图我们能看到,卡方检验的统计量为4.86。接下来,我们借助P值来判断结果。③对比概率P值,下结论。P=0.02750150730030855由此,我们发现,P<0.05,说明我们应该拒绝原假设,换句话说,我们认为学生的性别与其是否被录取是相关的。紧接着,我们通过Pearson相关性检验,来判断汽车速度与刹车距离是否呈现的相关性。具体步骤如下:1)提出原假设与备择假设。●H0:汽车速度与刹车距离不相关。●H1:汽车速度与刹车距离相关。2)计算统计量。结果显示,汽车速度与刹车距离之间的Pearson相关系数为0.807,说明两者之间存在很强的相关性,为进一步验证这个结论,可以计算概率P值。3)对比概率P值,下结论。P=1.4898364962950702e-12通过计算,我们可以发现,P<0.05,说明我们应该拒绝原假设,换句话说,我们认为汽车速度与刹车距离之间强相关性是正确的。(3)Shapiro正态性检验接下来,我们来说说Shapiro检验。对于正态性的样本,我们在做检验时,可以使用Shapiro检验方法。当然,我们通常要求样本数量在5000以内,如果样本量在5000以上,可以使用KS检验方法。下面,我们以Titanic乘客的年龄数据为例,来验证其是否服从正态性分布。1)提出原假设与备择假设。●H0:乘客的年龄数据服从正态性分布。●H1:乘客的年龄数据不服从正态性分布。2)计算统计量。通过计算,我们可以得出Shapiro检验的统计量为0.981。接下来,我们就需要通过计算,来得出明确的结论。3)对比概率P值,下结论。P=7.322165629375377e-08通过计算,我们可以发现,P<0.05。所以我们应该拒绝原假设,换句话说,我们认为Titanic乘客的年龄并不服从正态性分布。写在最后综上,我们给大家分享了三类数据统计分析策略。结合案例分析,我们不难发现,在数据分析过程中,我们不仅要通过探索方法,对数据结论或者业务走向,做到心中有“数;还要通过深入研究,让数据背后的隐藏价值,客观、直接的展现在从业者的面前,为我们后续给企业,者领导层提出相应的决策,提供有力地支撑。#数学分析#

母亲河

数据分析——建模分析基本流程

编辑导语:在我们的日常工作中,很多时候都会用到数据分析的方式,其中建模分析的方法也是数据分析的一种类型,对于各种数值能够清晰明了的呈现;本文作者分享了关于数据分析中的建模分析的基本流程,我们一起来了解一下。日常的数据分析工作中,除了基本的拆解法、对比法做分析外,也经常需要用到模型的方法来做预测或者分类,这里会介绍建模分析的基本流程及常见处理方法。01 描述性分析在拿到数据后,不能着急立刻开始清洗数据或者模型训练,而是先了解数据(除建模分析外,其他的数据开发也要做这一步),这样才能避免后期的踩坑,否则十有八九是要复工的。那“了解数据”这一环节,具体要了解哪些东西呢?了解各个特征的业务含义和计算逻辑各个特征的分布是否符合预期特征之间的相关性如何,是否符合基本逻辑特征和目标值的相关性如何,是否符合基本逻辑在相关性分析这里,数值型变量之间可通过计算相关系数或者画图呈现;数值型变量和分类变量可通过箱线图呈现关系。02 缺失值处理在初步了解数据后,需要做一些数据预处理的行为。第一步就是对缺失值处理,一般根据样本量多少以及缺失比例,来判断是“宁缺毋滥”的删除,还是缺失值填充。具体处理的思路可以是这样的:统计计算样本量n,各个特征数据缺失率y,各样本数据特征缺失率x;特征缺失率x比较高的样本一般都建议删除;因为多个特征都缺失,填补也比较困难,即使填补信息偏差也会比较大。如果某特征缺失率y比较大,则删除此特征;如果特征缺失率低且样本量比较大的话,可删除特征缺失的样本;如果样本量少不可删除,则对缺失值做填充。缺失值填充的方法有:根据特征的众数、中位数或者平均值来填充;也可以对样本做分类,根据所在类的平均值众数等填充;通过回归法来做样本填充,缺失值作为因变量,其他特征做自变量去预测;还可通过比较复杂的方法,如多重插补法。03 异常数据处理处理完缺失值后,需要做异常数据处理。之前介绍过一篇异常数据处理的方法,数据分析-异常数据识别;这篇介绍了多种适应不同场景下的异常数据识别方法。04 数据标准化处理对于很多模型,如线性回归、逻辑回归、Kmeans聚类等,需要计算不同特征的系数,或者计算样本距离。这种情况下,如果不同特征的数值量级差的特别大,会严重影响系数和距离的计算,甚至这种计算都会失去意义;所以在建模前必须要做的就是要去量纲,做标准化处理。当然有些模型是不需要做数据标准化处理的,如决策树、随机森林、朴素贝叶斯等。当前最常用的数据标准化处理方法有:1)最小—最大规范化(x-min)/(max-min),将其规范到[0,1]之间2)z值规范化(x-均值)/标准差,将其规范为均值为0,标准差为1;如果这种情况,受离群点影响比较大的话,可以用中位数代替均值,用绝对标准差代替标准差。还需要注意的是,如果样本分布非常有偏的话,可以先做box-cox变换,将其往正态分布变换后再标准化。05 特征选择在做完基本的数据清洗以及特征变换后,需要做的是特征选择,一般做特征选择的原因是:某些特征存在多重共线性,这种情况对线性回归和逻辑回归影响比较大;特征太多,有些特征增加了模型复杂性却与模型无关,不能全部入模,需要筛选出价值更高的特征。1. 多重共线性是什么:模型的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。影响:1)影响模型的稳定性,而且影响模型的解释。举个例子,假设消费支出=0.3*收入,这样可能的模型输出的是:消费支出+收入1.3*收入1.6*收入-消费支出同样的数值输出,不同的公式计算,会非常模型解释和稳定性的。2)线性回归模型,会导致最小二乘估计无法计算系数,即使可计算系数方差也很大,即1)中提到的不稳定。怎么识别:计算特征之间的相关系数,对于相关性特别高的特征,根据业务需要保留有代表性的特征;方差膨胀因子(VIF)。计算每个特征被其他特征拟合的情况,如特征j,被其他特征线性拟合的决定系数为R2;通常拟合越好,决定系数就越大且最大可达到1。所以,当方差膨胀因子过大,说明此特征存在多重共线性。一般大于10会认为有比较强的多重共线性问题。怎么解决:删除共线性强的特征;线性回归模型的话,可采用岭回归的估算方式解决。2. 特征太多不同的模型和应用场景下特征筛选方式不同:对于二分类问题来说,筛选逻辑是:筛选出对二分类结果区分度比较高的特征;可以通过计算IV(information value)值的大小来筛选,一般IV值越大,此特征对二分类结果更有区分度。对于回归预测问题,主要针对多元线性回归。筛选特征的方法有:特征子集选择法、正则化法以及降维法。1)特征子集选择法特征子集选择法有向前逐步选择法和向后逐步选择法:a)向前逐步选择具体方法就是从0个特征开始,一个一个逐步从剩余特征中添加使得模型拟合误差最小的特征,在添加过程中得到模型拟合最优的特征组合。b)向后逐步选择和向前逐步选择类似,只是反过来了,让所有特征入模,再一步一步剔除效果不好的特征,从而达到最优。2)正则化压缩无意义特征的系数比较好用的方法是lasso。一般的线形回归我们只会希望它的误差平方和最小,但是lasso的目标函数在原有目标函数后面加了一项系数惩罚项。这样让目标函数最小,可以实现无意义特征的系数为0,从而实现特征选择。3)PCA降维这个是将原有有一定线性关系的特征线形组合成新的相互独立的特征,所以不适合原有特征已经相互独立的情况。以上就是数据建模的前期准备流程,做完这些内容就可以开始模型训练,对模型结果进行预测分析啦,而这部分则是不同模型会有不同的具体处理方法。总之,模型训练前的数据分析、数据清洗以及特征选择非常重要,甚至他们是决定建模是否成功的关键因素,所以这部分工作一定要做细做准确。感谢阅读,以上就是我要分享的内容~本文由 @须臾即永恒 原创发布于人人都是产品经理。未经许可,禁止转载题图来自Unsplash,基于CC0协议