大数据文摘出品文章来源:opendatascience.com编译:Ivy、狗小白、云舟作为一名前半生奉献给学术,现在投身业界的研究者,Daniel Gutierrez习惯在数据科学业内工作的同时,跟进学术界的最新动态。最近,通过一场网络研讨会,他发现人工智能大神吴恩达(Andrew Ng)也有一样的习惯。吴恩达提到,他经常随身携带一个装满研究论文的文件夹,利用搭车的空闲时间研究论文。Daniel Gutierrez因此建议,不管是数据科学从业者还是研究者,都可以准备一个论文文件夹来装一些论文,就像吴恩达建议的:如果你每周阅读几篇论文(部分论文可以泛读),一年后你就阅读了100多篇论文,足够比较深入地了解一个新领域。在这篇文章中,Daniel Gutierrez列出了2018年最具影响力的20篇数据科学研究论文清单,所有数据科学家都应该认真回顾。我还收录了一些综述性文章,它们可以帮助你看到当前技术领域的发展情况,同时还有完整的参考文献列表,其中不乏很多具有开创性的论文。新一年随身携带的论文合集,不如就从这里开始吧!无法科学上网的同学,可以在大数据文摘后台回复“数据科学论文”下载合集。一种新型无梯度下降的反向传播算法我们都知道,在20世纪70年代初引入的反向传播算法是神经网络学习的支柱。反向传播利用大名鼎鼎的一阶迭代优化算法进行梯度下降,用于寻找函数的最小值。本文中, Bangalore的PES大学研究人员描述了一种不使用梯度下降的反向传播方法。他们设计了一种新算法,使用Moore-Penrose伪逆找出人工神经元权重和偏差的误差。本文还在各种数据集上进行了数值研究和实验,旨在验证替代算法的结果是否符合预期。下载链接:https://arxiv.org/pdf/1802.00027.pdf一份基于深度学习的情感分析情感分析经常被用于识别和分类文本中所表达的观点,因为它可以确定作者对特定主题、产品等态度是积极、消极还是中性的,所以在处理社交媒体数据时,情感分析非常有价值。深度学习日益流行,它是一种强大的机器学习技术,可以学习到数据的多层特征并生成预测结果。随着深度学习在许多其他应用领域的成功,近年来,深度学习在情感分析中也得到了广泛的应用。本文对深度学习进行了全面的综述,并对其在情感分析领域的应用现状也进行了分析。下载链接:https://arxiv.org/ftp/arxiv/papers/1801/1801.07883.pdf应用数学家所理解的深度学习是什么作为一名数学家,我喜欢看一些关于数据科学的技术文档,并找到它们与应用数学的联系。本文从应用数学的角度出发,对深入学习的基本思想进行阐述。多层人工神经网络已在各个领域中被广泛使用,这场深度学习革命的核心实际上可以追溯到应用和计算数学的基础概念:特别是在微积分、偏微分方程、线性代数和近似/优化理论的概念中。下载链接:https://arxiv.org/pdf/1801.05894.pdf论深度学习的起源本文对深度学习模型进行了全面的历史回顾,它从人工神经网络的起源介绍到在过去十年的深度学习研究中占据主导地位的模型:如卷积神经网络、深度信念网络和循环神经网络。本文还重点介绍了这些模型的先例,分析了早期模型的构建过程,以及模型的发展历程。下载链接:https://arxiv.org/pdf/1702.07800.pdf?递归神经网络研究进展递归神经网络(RNN)能够从时间序列数据中学习序列特征和长期依赖性。RNN由一堆非线性单元组成,单元之间至少有一个连接形成有向循环。一个训练完备的RNN可以模拟任何一个动态系统,然而,RNN在训练时一直受到长期依赖性问题的困扰。本文对RNN进行了综述,并着重介绍了该领域的一些最新进展。下载链接:https://arxiv.org/ftp/arxiv/papers/1801/1801.00631.pdf关于深度学习的十大质疑尽管深度学习的历史根源可以追溯到几十年前,但“深度学习”这一术语和技术在五年前才开始流行起来,当时该领域被Krizhevsky、Sutskever和Hinton等人所统治,他们在2012年发表了经典之作“基于深度卷积神经网络的图像分类”。但在接下来的五年中,深度学习领域中又有什么发现呢?在语音识别、图像识别和游戏等领域取得长足进步的背景下,纽约大学的AI反对者Gary Marcus对深度学习提出了十个问题,并表明如果我们想要获得通用的人工智能,深度学习必须辅以其他技术。下载链接:https://arxiv.org/ftp/arxiv/papers/1801/1801.00631.pdf深度学习中的矩阵微积分本文较为全面的介绍了深度神经网络中(以及参考文献表中大多数论文)所需的所有线性代数知识。除了基础微积分知识之外,本文深奥的数学知识很少。请注意,若你还是深度学习新手,这篇论文对你来说意义不大;相反,若你已经熟悉神经网络基础知识并希望加深对基础数学的理解,这篇论文将非常适合你研究。相关报道:https://arxiv.org/abs/1802.01528群组归一化批量归一化(BN)是深度学习开发中的里程碑技术,它使得各种网络的训练成为了可能。但是,沿批量维度进行归一化会带来一些问题:当批量大小变小时,由于批次统计估计不准确,BN的误差会迅速增加。这限制了BN在训练大型模型以及计算机视觉任务(包括检测、分割视频)中的使用,因为这些任务需要的是受内存消耗限制的小批量。本文由Facebook AI研究人员(FAIR)提出,将Group Normalization(GN)作为BN的简单替代方案。GN将通道分成群组,并在每组内计算标准化的均值和方差。GN的计算与批量大小无关,并且其准确性在各种批量大小中都是稳定的。下载链接:https://arxiv.org/pdf/1803.08494.pdf平均参数比重能带来更广泛的优化和更好的概括能力深度神经网络的训练一般通过使用随机梯度陡降(SGD)变量和递减学习率来优化一个损失函数,直至其收敛。这篇论文指出,对SGD曲线上的多个点取简单平均数,并使用周期波动或恒定的学习率比传统训练方式有更好的概括能力。这篇论文还展示了,这个随机平均参数比重(SWA)过程比SGD有更广泛的优化能力,仅用一个模型就达到了之前快速集合法的效果。下载链接:https://arxiv.org/pdf/1803.05407.pdf对基于神经网络进行文本总结方法的调查自动总结归纳文本,或者说在保留主要含义的同时压缩文本长度,是自然语言处理(NLP)领域的一个重要研究范畴。这篇论文对近来基于神经网络的模型在自动文本总结方面进行了研究。作者详细审查了十款最前沿的神经网络摘要器:五款摘要模型,以及五款提炼模型。下载链接:https://arxiv.org/pdf/1804.04589.pdf神经网络风格传输的回顾Gatys等人在2015年“针对艺术风格的神经网络算法”这篇开创性著作中,展示了卷积神经网络(CNN) 能够分离和重组图片的内容和风格,在生成艺术图像上表现出了强大的能力。这个使用CNN来渲染不同风格的内容图像被称作神经网络风格传输(NST)。此后,NST在学术著作和工业应用上都很是热门,受到越来越多的关注,也产生了很多种致力改善或者扩展原有NST算法的方法。这篇论文对NST目前的发展状况提供了概览,也对未来研究提出了一系列问题。下载链接:https://arxiv.org/pdf/1705.04058.pdf几何数据:在机器学习领域针对黎曼几何的一个Python包在机器学习领域应用黎曼几何越来越受人们关注。这篇论文引入了几何数据这一概念,也给出了应用于诸如超球面、双曲空间、空间对称正定矩阵和李群变换等多重内容计算的python包。此外,论文中还包含了对于这些多重内容的应用,以及实用的黎曼度量和相关的外生性、对数图。相应的测地线距离提供了一系列机器学习损失函数的直观选择。作者还给出了对应的黎曼梯度。几何数据的操作可用于不同的计算后台,比如numpy, tensorflow和keras。文章作者使keras深度学习框架综合应用GPU和几何数据多重内容计算变成了可能。下载链接:https://arxiv.org/pdf/1805.08308.pdf一个更通用的稳健损失函数这篇论文展示了一个双参数损失函数,可视为对稳健统计学中很多常用的损失函数的一个概括,这些常用的损失函数包括Cauchy/Lorentzian, Geman-McClure, Welsch/Leclerc和广义卡尔波涅尔损失函数(按传递性分为L2,L1,L1-L2和pseudo-Huber/Charbonnier损失函数)。作者描述并可视化展示了这个损失和相应的分布,并列出了它的一些实用性特质。下载链接:https://arxiv.org/pdf/1806.01337.pdf反向退出:随机反向传播算法这篇论文引入了“反向退出”的概念,也即一个灵活而应用简便的方法,可以直观地表述为,退出现象仅沿着反向传播管道发生。反向退出的应用是沿着网络中特定点插入一个或多个屏蔽层。每个反向退出的屏蔽层在正推法中被视为特征,但几乎不屏蔽部分反向梯度传播。直观来看,在任何卷积层之后插入反向退出层会带来随机梯度,随刻度特征不同而有不同。因此,反向退出非常适用于那些有多重刻度、金字塔结构的数据。下载链接:https://arxiv.org/pdf/1806.01337.pdf关系型强化深度学习这篇论文引入了一个通过结构化感知和关系型推理从而提升强化深度学习(RL)的方法,主要表现在改善效率、泛化能力和提升传统方法的解读能力。通过自我感知来迭代推理场景中的主题和引导无模型原则之间的关系。结果显示,在一个拥有新型导航和任务计划的“盒世界”中,代理找到了可解释的解决方案,从而可以在基线之上改善样本的复杂度、泛化能力(在训练中能应对更的复杂场景)以及整体表现。下载链接:https://arxiv.org/pdf/1806.01830.pdf一个非常有趣的案例:卷积神经网络和执行坐标转化方法的失败深度学习里几乎没有别的概念像“卷积”那样大的影响力了。对包含像素或空间表征的任何问题,普遍的直觉就是试试看CNNs。这篇论文通过一个看似微不足道的坐标转化问题展示了一个反直觉的案例,也即单纯要求机器在坐标(x,y)笛卡尔空间和一个热像素的空间之间学习一个地图。虽然CNNs似乎很适用于这个场景,来自Uber的作者们证明了卷积神经网络法最终失败了。这篇论文展示并仔细检验了这个失败案例。下载链接:https://arxiv.org/pdf/1807.03247.pdf反向传播法的演变反向传播算法是深度学习的基石。尽管其非常重要,但很少有方法尝试调整其算法。这篇论文展示了一种发现新的反向传播方程变式的方法。来自Google的作者使用了一种领域专用语言,将升级的方程描述为一系列原始方程。基于进化的方法被用来发现新的反向传播原则,该原则在一系列最大训练次数后能够最大化泛化能力。这个研究发现了一些升级方程,相较标准的反向传播算法在较少次数内训练得更快,并在收敛时有与标准反向传播算法近似的表现。下载链接:https://arxiv.org/pdf/1808.02822.pdf在深度卷积神经网络学习时代里,物体探测领域近来的发展物体探测就是对于特定类别图片,比如车、飞机等进行探测的计算机视图任务 ,它在过去五年里在人工智能领域里吸引了非常多的关注。这些关注,既源于该领域在实际应用的重要性,也是因为自从CNNs时代的到来,它是人工智能领域里现象级的发展。这篇论文是对近来使用深度卷积神经网络学习方法的物体探测领域著作的一个全面回顾,也对近来这些发展进行了深刻的透析。下载链接https://arxiv.org/pdf/1809.03193.pdf语言交互式AI的神经网络法这篇论文对近年来发展出的语言交互式AI中神经网络方法进行了调查。语言交互式AI可被分为三个类别:1. 回答问题的机器人2. 以任务为导向的对话机器人3. 自动化语音聊天机器人。针对每个类别,文章使用特定系统和模型为案例,展示了领域最前沿的神经网络方法,并将其与传统方法比较,讨论其进步之处和仍面临的问题。下载链接:https://arxiv.org/pdf/1809.08267.pdf可撤销的循环神经网络循环神经网络(RNNs)在运行序列数据上表现最优秀,但训练起来更占用内存,也就限制了RNNs模型的灵活性。可撤销的循环神经网络,也就是“隐藏对隐藏”的转化能被撤销的RNNs,提供了减少训练所需内存的一个路径,因其隐藏状态无需存储,从而能够在反向传播算法中被重新计算。这篇论文展示了完美可撤销RNNs从根本上就是受限的,因为它们依然需要记住隐藏状态。随后,为了实现能够忘记隐藏状态的完美可撤RNNs,文章提供了存储少量bits的方法。作者这个方法达到了传统模型的近似效果,同时减少了活动内存成本约10-15个百分点。下载链接:https://arxiv.org/pdf/1810.10999.pdf相关报道:https://opendatascience.com/most-influential-data-science-research-papers-for-2018/
作者 | Jeremie Harris翻译 | MikaCDA 数据分析师原创作品,转载需授权首先我要说的是,我是一名博士肄业生。这个头衔给我带来了所谓的光环,它暗示我在研究生院待过,做过一些学术研究。完成博士学位,意味着你不过是千万个”书呆子”中的一员,而在学了几年后辍学似乎显得你更有个性。人们期待知道你之后会做些什么。他们可能会说,“特斯拉的CEO Elon Musk就选择放弃研究生学位,离开学校去创业,你也可能成为下一个Elon!”那么如果想入行数据科学,学历重要吗?一定需要博士学历或研究生学历吗?在本文中我将分享我的看法。我在数据科学导师制创业公司工作。在工作中,我已经面试过数千位有抱负的数据科学家,当中有些人有博士学位,有些有硕士学位,有些是本科生,也有各个阶段的肄业生。这也让我对数据科学职业有了更深的认识。STEM:科学(Science),技术(Technology),工程(Engineering),数学(Mathematics)这四门学科有许多人会向他人咨询,是否要继续深造读研或读博,而当中很多人对前景没有全面的分析。其实不是所有的学位都适合每个人,原因如下。一、博士学位(这可能会让许多有博士学位的人感到不舒服,在此我提前道歉。)“我看到许多数据科学工作都需要博士学位。我是否要有博士学位才能成为数据科学家呢?“不,并不需要。不要误会我的意思,博士头衔的确会给你带来明显的优势。但也要考虑一些现实因素。如果你的目标是成为数据科学家或机器学习工程师/研究员,那么有博士学位会给你加分不少。但与此同时也要考虑以下两点:1.获得博士学位需要非常长的时间。2.除非你跟着合适的导师,攻读合适的学位,否则你可能学不到任何有价值的东西。针对第1点,在美国或加拿大,获得博士学位需要4年到8年才能完成。平均需要5到6年,具体取决于学校。现在让我们把它放到透视中。在数据科学领域瞬息万变,5年内各种成果层出不穷。要知道,在5年前Spark、XGBoost、jupyter notebook、GloVe、spaCy、TensorFlow、Keras、Pytorch、InceptionNet、ResNet、强化学习等等都还不存在。因此,除非你打算当新技术出现时,花时间自己钻研。否则你会发现学习期间接触到的技术远远跟不上当下的发展。这意味着即使你毕业后,还需要自己学习这些技术。关键在于,数据科学和机器学习的发展非常快,在未来只会发展得更快。因此,当考虑攻读数据科学或机器学习相关领域的博士学位时,你实际上是把赌注都下在你所要学习的领域。你希望在毕业时,该领域还是炙手可热的。而这样的赌注很冒险,而且赌注很高。第2点,思考一下你的导师是谁,为什么他们没有在Google或Facebook工作。当然,有些人更喜欢学术研究,而不是在行业中运用数据科学或机器学习。但值得记住的是,行业顶级的机器学习人才的薪资是非常丰厚的,因此学术界的可能会稍逊一筹。当然,有些地方也有些例外。这主要指的是加拿大的Vector Institute或MILA;麻省理工学院和美国伯克利的数据科学课程等顶级精英项目。总结一下:如果你只想成为Airbnb的深度学习工程师,那么博士学位一定程度上能成为你的敲门砖。但是,如果你不是在顶级项目中攻读博士学位,那么不要期望被行业顶尖的公司录用。但是,如果你想找份普通的数据科学工作,获得博士学位可能并不是正确的举措。你可以用4到8年的时间获得丰富的工作经验,去成长为一名真正的数据科学家,那么出现新技术时,你能更好的进行预测,保持领先的位置。如果你考虑攻读与数据科学无关领域的博士学位(例如物理,生物学,化学),并且目标是找数据科学方面的工作,那么这条建议可能有些刺耳:如果你离毕业还有18个月或更长时间,而且你确定自己想成为一名数据科学家,那么可以考虑辍学。考虑到沉没成本,你应该对之前决策感到质疑,根据我之前的经验来看放弃可能是正确的选择。二、硕士学位入行数据科学需要硕士学位吗?视情况而定。以下是我列出的记分表,如果根据你的情况,分数大于6,那么答案是“硕士学位可能会有所帮助”。你有非常相关的STEM背景(物理、数学、计算机科学等本科学历):0分你有较为相关的STEM背景(生物学、生物化学、经济学等本科学历):2分你没有相关的STEM背景:5分你有不到1年的Python使用经验:3分你没有编程相关的工作经验:3分你不认为自己擅长独立学习:4分当我说这个记分表实际是一个逻辑回归算法时,你不明白我的意思:1分注意:需要考虑的是,你是否需要数据科学硕士学位或数据科学训练营。如果选择参加训练营,要注意他们的激励措施:是否课程完成后保证聘用?是否有与训练营相关的求职指导服务?许多人都对训练营持怀疑态度,这是有道理的。但大多数忽略的是,他们对待大学所提供的相关硕士学位也该如此。巩固硕士学位就相当于训练营。如果你不在乎你的成绩,那么要注重你从中学到了什么。在选择相应的硕士学位和课程项目时要询问其研究生就业率。有的大学希望学生选一个简单的专业,而不是好的专业,这是一场心理博弈。你的目标是最终被聘用,找到理想的工作,而不是仅仅为了一纸文凭而付出时间和精力。即使完成了硕士学位,你还需要学习很多技能,可能比你预想的还要多。但只要硕士课程的时间较短(最好不超过2年),成本不是太高。三、本科学位总的来说,是的,成为数据科学家你需要相关本科学位。不仅仅是因为你需要掌握相关知识,而且公司并不认为你通过自学,参加训练营和一些在线课程就能胜任数据科学的工作 。但关于本科学位你要注意的是,如果你和科技行业的人聊聊,你很快会发现科技型工作中涉及到的内容要远远超出学校课本。这是因为学校所教的本科课程一般比现实情况要滞后5到10年。如果你学的是不会发生很大变化的专业是没有太大问题的,比如如物理、数学或统计数据等。但是如果你是工程或计算机科学专业,并且你在一家出色的公司实习,你想休学或肄业来获得更多的工作经验,那么你可以考虑这样做。如果你读本科的目的是为了获得一份工作,你已经在一家有不错前景的公司获得职位,那么何必多付几年学费呢。我的意思并不是你应该不读完本科就去工作,我想说的是,如果你完成了实习并且获得了相应的全职工作,那么对于是否完成学业应该有更开放的观念。而不是因为大家都这么做,才做出这种选择。结语在本文中,我给出的一些建议可能不是那么常规。但在数据科学这样快速发展的领域,惯例往往并不是最优选择。当今社会中,人们对传统教育价值的看法应该与时俱进。当然,这并不意味着正规教育以及研究生学位是不值得的。但是,不应该认为获得硕士或博士学位是必备的。如果你读研读博只是为了符合数据科学职业轨迹的刻板印象,那么你可能需要重新考虑了。
7月12日,山东大学数据科学研究院在济南正式成立。 赵晓 摄中新网济南7月12日电 (赵晓)山东大学数据科学研究院12日在济南正式成立,将围绕经济社会管理、工程技术、医疗卫生等领域开展科学研究,建设数据人才培养高地。图为教育部科技司副司长高润生在山东大学数据科学研究院成立大会上致辞。 赵晓 摄记者当天在山东大学数据科学研究院成立大会上获悉,该研究院将以机器学习与数据科学基础理论、计算社会科学、健康大数据和工程大数据等为研究方向,下设大数据理论研究中心、健康医疗大数据研究中心、计算社会科学研究中心和工程大数据研究中心。山东大学数据科学研究院院长刘建亚介绍说,该研究院是校属独立实体性科研机构,将综合运用数学、统计学、计算机科学、信息科学等学科进行前沿研究。“既注重数学科学研究,也立足于理学、工学、医学等领域的实际应用,培养数据科学专业高端人才。”“当前,人类社会步入数字化时代,数字经济风起云涌。中国大数据产业初建规模,具有良好发展前景。”教育部科技司副司长高润生在大会致辞中表示,山东大学成立数据科学研究院是高校科技体制改革的需要,应充分整合校内科研资源,瞄准国家战略和区域发展的大数据需求,加强数学理论、数据科学和数字经济一体化研究,持续催生新业态和新产业,支撑经济高质量发展。当天,山东大学数据科学研究院内设的健康医疗大数据研究中心同时挂牌为“山东大学健康医疗大数据研究院”和“山东省健康医疗大数据研究院”。图为山东大学校长樊丽明在大会上发言。 赵晓 摄国家卫生健康委员会统计信息中心主任张学高指出,大数据是信息化时代的战略资源,健康医疗大数据的发展目前正面临数据融合共享程度低、医疗机构数据围墙难以打破、复合型人才匮乏等挑战。山东省、济南市已分别入选国家健康医疗大数据中心的试点省市,山东大学健康医疗大数据研究院的成立将汇集政府、企业、研究机构、医疗机构等多方力量,打造政产学研用为一体的健康医疗大数据系统,推进“互联网+医疗健康”发展。山东大学数据科学研究院的内设机构健康医疗大数据研究中心正式挂牌“山东大学健康医疗大数据研究院”。 赵晓 摄据山东大学校长樊丽明介绍,数学学科是山东大学传统优势学科,为发展数据科学等新兴交叉学科奠定基础。数据科学研究院将以数学为基础,围绕经济社会管理、工程技术、医疗卫生等领域的核心问题推进研究。“厚植齐鲁大地,研究院还将加强与地方政府、企业的合作,建设大数据分析共享平台,推动社会服务和成果转化,回应时代需要。”(完)
编者按:项目分析是由我们指南者留学新推出的一个专栏。应广大粉丝号召,我们将挑选部分热门专业,对比分析不同开设院校的项目特色、申请难度、申请要求、就业数据、课程设置、师资力量等,都是干货接地气的信息,希望对大家选校和申请准备有所帮助。很多同学对成为数据科学家(Data Scientist)很感兴趣,我们在这里介绍一下Data Science和Analytics这类专业的申请特点和如何定位。严格地说,Data Science和Analytics不一样,同样是做Data Scientist不同行业不同公司侧重点也可能不一样。本文主要从申请出发,故不做特别区分。下面我们将具体介绍10大热门数据科学硕士研究生项目:哥伦比亚大学哥伦比亚大学的MS in Data Science 项目处于美国数据科学硕士申请难度的第一梯队。该项目为期1年,学生共需修读30个学分,无需撰写毕业论文。该项目开设获得专业成就认证必需的四门基础课程,学生可以在此课程基础上将数据科学技术运用于各自的兴趣领域。该项目要求申请者拥有一定的数学及编程基础,最好学过微积分、线性代数、计算机编程等课程,没有强制性的工作经验要求,有的话也会为申请者加分。需要递交GRE成绩,托福100、雅思7.0,不可使用GMAT代替GRE成绩。项目的学生将有机会从事包括毕业项目在内的独创研究,并与行业合作伙伴以及教学人员沟通互动。毕业生可以选择金融等服务领域工作,也可以选择偏向技术的IT企业。杜克大学杜克大学的Master in Interdisciplinary Data Science (MIDS)项目为期2年,该项目致力于培养一批能够使用计算策略来激发创新能力和洞察力,并且善于定量思考的新型领导者。旨在培养学生成为能给任何领域做出贡献的数据科学家,通过跨学科训练与团队合作科学实验的经验促进学生更好地利用数据的力量。项目规模不大,每年招收25-35名学生。申请要求方面,不强制要求申请者有数学、计算机等专业背景,但是最好要学过微积分、线性代数、统计等数学方面的课程。需要递交GRE成绩,托福90,雅思7。毕业生去向良好,实习就业机会较多,从事的领域以计算机科学,金融,生物科学等领域居多。宾夕法尼亚大学宾夕法尼亚大学数据科学硕士项目为期一年半至两年,将有关机器学习、大数据分析与统计学等核心课题的前沿课程与多样化的选修课有机结合,给予学生选择在特定的目标专业领域内应用技能的机会。项目包括基础课程及数据科学应用领域的实习。要求提供GRE,无最低分数要求。托福100,雅思7.5。毕业生就业形势良好,就业率较高,可以进入工程技术、咨询、决策等领域。西北大学西北大学分析学理学硕士项目(MSiA program)由西北大学工业工程与管理科学学院开设,为期15个月。该项目的核心课程由统计学、机器学习、优化、数据库、数据处理组成,每一门课都已之前的课程为基础,强调在商业实际中的学术研究。申请要求方面,需要提供GRE分数,要求托福95,雅思7.5。适合本科工程、商学、计算机科学、数学、信息科学技术专业背景的人士。该项目面向商业,加上课程时间较短,有很多的实习机会,大部分学生毕业后选择直接工作,毕业生多进入金融领域。康奈尔大学康奈尔大学运筹学与信息工程硕士项目(数据分析方向)为期1年,共计30个学分,要求申请者拥有数学、工程、物理、化学、数学经济学等本科背景,且已经修读过微积分、概率论、统计、计算机编程、数据结构等课程。每年招收50人左右,其中中国人大约30个。该项目选课自由度很大,并且有选CS系课程的优先级,无论你是想学CS,IS还是商科,金融,统计,统统都可以选。这种选课的自由度放眼全美也是十分罕见的。申请者需要托福100(写作不低于20,听力不低于15,阅读不低于20,口语不低于22);雅思7;GRE数学不低于166,阅读不低于165,写作不低于3.5;不接受GMAT。毕业生2015年平均起薪达到83925美元,大部分学生进入苹果,微软,甲骨文,Facebook等互联网公司。南加州大学南加州大学计算机(数据科学)理学硕士项目需要修满28个学分,要求课程读完GPA不低于3.0,班级规模较小,每年招收20-30人,偏向于理论研究方向。要求申请者提供GRE,托福:90-100(单项不低于20);雅思:6.5-7(单项不低于6),不需要接受学校ISE测试,GPA3.0以上。该项目的毕业生可进入微软、百度等世界500强的企业机构。卡耐基梅隆大学卡耐基梅隆大学Heinz学院下设两个数据科学硕士项目:MSPPM Data Analytics track和MISM Business Intelligence & Data Analytics。一个偏技术导向,一个偏商科导向。这里只介绍技术型的MSPPM Data Analytics track项目。该项目分标准(Standard)、延伸(Extended)、快捷(Accelerated)三种修读模式,学制分别为16个月、20个月和12个月,总学分均为144个学分,每年招收学生较少。该项目要求提供GRE,不接受GMAT,托福100以上,雅思7以上。项目的综合性课程体系有助于学生习得专业技能与知识,以开发用于下一代大规模信息系统部署相关的技术层,以及分析这些系统生成的数据。毕业生就业形势良好,能够成为前沿信息技术、软件服务与社会传媒企业中备受青睐的软件工程师、数据科学家与项目经理人。佐治亚理工学院佐治亚理工学院的MS in Data Analytics项目是2015 Fall新开设的项目,有三个Track:Analytical Tools Track、Business Analytics Track、Computational Data Analytics Track。是跨学科硕士项目,根据以往的经验,这个学校的所有研究生项目都不太好申请,跟UC-Berkeley类似,申请难度较大。申请者需要提供GRE,且托福100,不接受雅思。学生有机会直接向顶级的国际商业智能权威机构、统计学与运筹学尖端分析技术的开发者,以及大数据与高性能计算领域的世界级领导者学习。毕业去向主要面向商业智能与决策支持。New York University纽约大学的MS in Data Science 以其超高的就业率一直人气颇高。这是一个2年制的项目,且拿到了STEM资质。班级规模30-40人,且50%为国际生。一般为期4个学期,要求学生有足够优秀的数学知识背景和一定的计算机科学基础知识,并且学习过微积分、线性代数、统计学、概率论以及计算机科学等课程。要求托福100,雅思7,接受GRE/GMAT。该项目跟CMU类似,有很多细分的项目,跟不同的院系合作设立,从偏技术到偏商业的都有,偏技术的相对好申请。北卡罗莱纳州立大学北卡罗莱纳州立大学分析学理学硕士项目是由高等分析研究所(Institute for Advanced Analytics)开设的全美第一个分析学硕士项目。NCSU analytics是分析学项目里的顶级老牌项目,但是学校综合排名不高。要求托福80(单项不低于18),雅思6.5(单项不低于6.5);不要求GRE/GMAT,每年招收20-30人,其中国际生50%。
首先来说说数据科学吧,作为一门学科, 数据科学所依赖的两个因素是数据的广泛性和多样性,而广泛性和多样性之间又有共性。数据科学主要包括两个方面: 用数据的方法来研究科学和用科学的方法来研究数据。前者的包含面很广,囊括了生物信息学,天体信息学等领域。而后者包括统计学、CS、数据挖掘、数据库等领域。所以,要直白的说的话,就是数据科学包括了统计学,数据挖掘。而数据挖掘既相对独立,也可以作为一个统计学发展的小方向(与CS有关)而不是分支。而大数据则是个专有名词,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。统计学的主干课程都包括什么?主要都涉及到什么样的知识和实际背景?两者的比较如果再从就业上讲,统计无疑是一个比较热门的专业,之中好多方向都比较好就业,每个方向都有其对应的工作,比如事业单位和经济、管理部门从事统计调查、统计信息管理、数量分析等开发、应用和管理工作,或在科研、教育部门从事研究和教学工作。而数据科学作为拥有完整知识体系的新兴的学科,其就业前景无疑也是可观的。——圆圆个人认为这三者既存在着密切的联系,也不完全相同。用数学的话来说,就是三者之间相互存在着交集,但也并不是完全包含。其中涉及的最广泛的应该就是数据科学了。研究大数据的方法可以称作数据科学、而统计的研究方法就更可以算作是数据科学了。本身,数据科学就是在大数据的背景下提出的。它不仅包括大数据的研究方法和研究背景,更包括对于数据软件的使用、对于数据库的理解、甚至包括对于算法的理解等等。大数据,是在近几年才刚刚提出并迅速走红的概念。它是未来数据分析和存储的新趋势。面对这个信息爆炸的时代,数据的高数量、高维度、高更新速度以及背后的高商业价值都对于传统的硬件存储、数据库管理和统计分析方法提出了更高的要求。原先的统计大多都是适用于小样本的情况,而面对这样的大数据往往显得无能为力。因此,相比较与其他的两个概念来看,它既是数据科学的基础,也是建立在统计基础上的一个科学。最后,三者最共同的地方应该就是统计了,无论是数据科学应用在各个实际领域、还是大数据的各种突破过去经典数据规模的领域,它们的核心思想或者说最先处理的基础都是统计。如果任何数据都可以使用经典的统计方法去解决的话,不会再采用其他的模糊近似的方法进行操作。综上,数据科学包含的内容更加全面、更加综合,它更像是一个对于实际的数据问题需要具备的一些基本甚至专业知识。而大数据,则只是一个概念,指的是对于现在这个数据泛滥时代的统称。而它的研究方法包括在数据科学之中。对于统计而言,它在应用领域与前两者也有着很类似的内容,然而其理论基础部分则与前两者不同,是前两者进行研究和发展的基础。——高原红想了解更多相关内容,记得持续关注我们哦。如果你觉得有点意思,请有秩序的评论、转发、收藏。
走进经济生活里的一切导读:2016年2月,教育部公布新增“数据科学与大数据技术”专业,北京大学、对外经济贸易大学、中南大学成为首批获批高校。次年,又有32所高校获批。此次248所高校获批“数据科学与大数据技术”专业,几乎是前两次获批高校的8倍。来源丨21世纪经济报道(ID:jjbd21)记者丨王峰 北京报道图片来源/ 图虫创意(资料图)“没有什么行业是没有数据的”“我认为没有什么行业是没有数据的。”清华-伯克利深圳学院数据科学与信息技术专业一年级硕士生王宇杰说。 他在去年9月从一名工科本科生跨学科进入了大数据专业。大数据专业正成为时下火热的高校新增专业。在4月28日举行的教育部新闻发布会上,教育部高等教育司副司长范海林介绍,2017年全国高校备案专业中,新增数据科学与大数据技术专业点250个,同比增加了近7倍。从中国人民大学、北京师范大学、厦门大学等知名大学,到一些地方院校均投入了这股热潮。王宇杰大二时在一次展会上不经意接触到了一款大数据可视化软件Tableau,由此对大数据产生了浓厚的兴趣。通过Tableau,王宇杰感受到,数据分析这个行业的潜力无可限量。随着移动互联网大数据时代的到来,数据量正在不断增长。未来,更多人将学会分析数据,并将数据的洞察运用到工作和生活中的方方面面。数据分析会从小众走向主流,人人都可以成为数据分析师。接下来的大学时间里,他参加了一些数据科学家训练营,和一些商业机构组织的训练营,还在慕课网站上自修了国外大学的大数据课程。他在2016年的Tableau可视化分析争霸赛北京赛区比赛中拿到了第一名。Tableau可视化分析争霸赛是全球可视化数据分析人士的年度饕餮盛宴,每年都会成千上万数据狂人参加这一比拼。这其中,既有来自各行各业的数据分析专家,也有像王宇杰这样的数据爱好者,而王宇杰是获奖选手中唯一一名大学生。通过这些活动,王宇杰结识了这个一不断壮大的数据分析社区,也让他对这个行业更加充满热情。大四时,王宇杰得到了保研的机会,“国内开设大数据方向研究生专业的大学并不多,主要有清华大学、北京大学、复旦大学、北京航空航天大学等,这是当时比较知名的几个高校。”王宇杰说。王宇杰得到了北大和清华的offer,权衡之后,他选择了清华-伯克利深圳学院,这是清华和伯克利合办的硕士研究生项目,不仅可以在清华拿到数据科学学位,还有机会到美国加州大学伯克利分校去进行为期9个月的学习,同时拿到相关学位。“我是清华-伯克利深圳学院招收的第二届硕士生,也就是说,大数据专业其实是一个非常崭新的学科,在我申请的那一年,相对来说,大家对这个概念还不是特别了解,当然已经有一定数量的申请者,远超我们实际录取的人数,但并不是那么的火爆。”王宇杰说。“到了我下面那届,就是招收第三届硕士生的时候,竞争就变得异常激烈,在短短一年时间里,这个专业成为了大家认可的非常有潜力的专业,大批的工程本科生,或者是数学、经济方面的学生开始申请我们这个方向,因此录取率直线下降。个人感觉在近几年内,竞争会变得越来越激烈。”他说。清华-伯克利深圳学院的数据科学与信息技术研究中心设有6个实验室,分别为传感器与微系统实验室、纳米器件实验室、物联网与社会物理信息系统实验室、未来互联网研究实验室、大数据实验室、智能成像实验室。“我想一般人会认为我们专业课的名称会比较高大上,像大数据分析、大数据基础等,的确会有这些,但从本质上来说,我认为我们学的课程跟数学、工程学这些基础学科没有太大区别,当然加入了一些新兴科技的课程,比如现在很火的深度学习、人工智能。”他告诉记者。王宇杰进入了智能成像实验室,学习和科研课题是关于计算机视觉。“用一句话来概括,我们要做的是赋予计算机人的视觉能力。怎么理解呢?以后是一个有大量机器人存在的世界,而机器人要跟人类进行交互,做一些基本的工作,必须要有视觉能力,看得懂周围的环境,所以我们做的事情就是通过技术的方法让计算机拥有人的这种视觉能力。”他说。热门专业:数据科学与大数据技术图片来源 / 新华社(资料图)3月21日,教育部公布了2017年度普通高等学校本科专业备案和审批结果。在新增备案本科专业中,“数据科学与大数据技术”最为热门。根据统计,共有250所高校新增“数据科学与大数据技术”专业,其中包括中国人民大学、北京师范大学、厦门大学等19所教育部直属高校。河南省21所高校新增该专业,为最多的省份。河北、山东、安徽、广东、江苏等省也有较多高校成功获批。2016年2月,教育部公布新增“数据科学与大数据技术”专业,北京大学、对外经济贸易大学、中南大学成为首批获批高校。次年,又有32所高校获批。此次248所高校获批“数据科学与大数据技术”专业,几乎是前两次获批高校的8倍。该专业备受高校青睐与国家大力支持大数据产业发展及该产业人才奇缺相关。国务院2015年8月曾印发《关于印发促进大数据发展行动纲要的通知》,明确鼓励高校设立数据科学和数据工程相关专业,重点培养专业化数据工程师等大数据专业人才。根据教育部上述2017年度高校本科专业备案和审批结果,此次共有60所高校获批“机器人工程”专业。“机器人工程”专业大热的背后,是人工智能行业的持续发展。3月6日,南京大学官网正式发布新闻,经研究决定,南京大学正式成立人工智能学院。今年政府工作报告中四次提及“智能”,并特别指出要“加强新一代人工智能研发应用”、“发展智能产业”。值得注意的是,从清华大学到地方高校,大数据专业成为普遍的时尚。“清华或者其他一般院校,在这个领域里对科研的贡献会有差异,但事实上,在如今的大环境之下,大家都想跟上时代潮流,所以我认为无论处于怎样的研究水平,敢于去跟上这个时代,就是挺好的一件事情。”王宇杰说。“大数据是一个概念,它包含的范围非常广,不同的专业方向,对外显示的名称可能都是大数据分析、大数据工程与技术,但是整个产业其实非常庞大,从前到后拥有一个很大的产业链。”他说。“我认为数据分析师这个称谓已经太过宽泛了,我觉得这个行业需要细分,未来会有专门做算法的工程师,专门做硬件实现的工程师,以及专门做理论推导的科研人员等。”他说。(编辑 戴春晨)
大数据文摘出品作者:蒋宝尚仅仅3年的光景,数据科学领域人才的供求就发生天翻地覆的变化。在2015年,领英研究表明,美国的数据科学人才非常充足,人才技能供求出现“顺差”,换句话说,就业者能够大大满足企业的需求。而截止到2018年的8月,领英的研究数据显示,数据科学领域出现了非常严重的人才短缺。在美国,当前数据科学家的人才缺口大约为151717人。领英采用的计算方法相对客观,即通过用户领英账户中个人资料界面显示的技能与招聘所要求的技能进行加权组合,以及综合考虑相关技能拥有者的雇佣频率与缺乏此技能成员的雇佣频率。通过计算得知:当前数学科学家缺口最大的地区为纽约市,34032人,其次是旧金山湾区,缺口为31798人,再者是洛杉矶,缺口为12251人。当然,有些地区的人才相对充足,甚至出现盈余,但是盈余规模相对较小并且在迅速缩小。越来越大的人才缺口表明,数据科学已经变得越来越重要,不仅是在金融领域,现在各行各业都需要大量的数据科学人才。预定这种人才差距正在会逐渐扩大。在旧金山湾区,数据科学家确实供不应求,领英的研究数据表明,此地区的社交媒体领域有着更大需求,人才缺口大约为34,222人。但是,在硅谷,企业更需要有良好交际能力的数据科学家。以下是研究报告的简单介绍完整报告地址:https://economicgraph.linkedin.com/resources/linkedin-workforce-report-august-2018报告的研究样本为领英的1.5亿用户,涵盖了亚特兰大、纽约、芝加哥等美国20多个地区。报告主要对美国人的招聘、就业者技能、移民数据进行了展示。这份研究报告的目的是为全球的每一位劳动者创造就业机会,无论职员、雇主、还是应届毕业生,都希望能够从这份报告中或者一些思考。就业数据在美国的招聘旺季期间,各行各业的总雇佣人数同比上涨4.6%。就业数据经过季节性调整,就业人数增长0.5%。6月份雇佣人数增幅最大的行业是农业和制造业,分别为26%,12.3%。技能缺口3年时间,美国的技能人才的供求从供过于求转变为供给不足。截止到2018年,美国的数据科学人才的缺口为151717人,这个数量预定会持续增长。各地区技能人才供求情况差异较大,大多数地区表现为人才不足,少数地区存在人才盈余。2015年7月至2018年7月美国地区数据科学技能短缺加剧移民情况7月份,美国得克萨斯州的首府奥斯汀的就业人数比去年增长了14.3%。强劲的就业市场正吸引着来自全国各地的人们。去年一年的时间,1.5亿的领英用户中,每10000人有105个劳动力前往奥斯汀就业。但是奥斯汀的数据科学的人才并不能满足企业主的需求,其中表现为就业者口语交流能力和数字读写能力相对不足。其他地区的人才流动情况见下图:相关报道:https://spectrum.ieee.org/view-from-the-valley/at-work/tech-careers/desperate-for-data-scientist
一、分析与数据科学的未来通过对IADSS联合创始人Usama Fayyad博士在2019年波士顿ODSC的主题演讲后的采访,了解当前和未来的数据科学问题以及可能的解决方案。数据技术对企业期望有什么影响?Usama Fayyad博士表示:我们所看到的最大的变化是一股巨大的数字化浪潮。我认为,这是我最关心的,在很多数字化的过程中,或者说所谓的数字转型的努力中,人们开始把很多手工工作数字化,使它们更准确,减少重复,无趣,更快。所有那些好东西。但数据最终成为了事后诸葛亮。结果是他们创造了我们所说的“即时技术债务”因为你现在已经建立了数字化的机制而你忘记了诸如“我如何获取正确的数据?”“我如何表示这些数据?”“我如何存储这些数据?”“我如何在正确的时间检索它?”和“什么级别的数据?”人类通常会在图和摘要的层次上消费数据,而像机器学习算法这样的机器需要每一个小事务的细节和它周围的东西。这对于人类来说是完全不可消耗的但是对于学习算法来说是必要的。所以,对我来说,现在的情况是人们现在反思说,好吧,如果我真的做适当的数字化,我想确保我放在正确的大脑和正确的情报来设计,这样当我获取正确的数据、管理数据正确,最重要的是,使算法非常挑剔的机器学习算法,只需要特定格式的数据,完全崩溃,如果不是这个格式,能够消费它。这就是我认为现在正在发生的变化,变得更好,尤其是在大数据方面,这使得处理不同类型的数据变得更容易。详细原文:https://www.kdnuggets.com/2019/09/future-analytics-data-science.html二、使用DC / OS加速企业中的数据科学遵循此使用Tensorflow的分步教程,将DC / OS数据科学引擎设置为PaaS,以启用分布式多节点,多GPU模型训练。1、为什么选择DC / OS数据科学引擎?2、AWS上的数据科学引擎3、自动化DC / OS数据科学引擎设置详细原文:https://www.kdnuggets.com/2019/10/dc-os-accelerate-data-science-enterprise.html三、最新SQL数据分析指南据计算,到2020年,地球上每秒钟将为每个人生成1.7 MB的数据,数据将成为我们数字时代的新石油。这催生了许多数据管理和分析数据等相关专业。其中许多职业要求是精通数据库中的数据管理。本文则是目前流行的SQL数据分析指南。来源:网络大数据公众号
引言:大数据能够预测零售企业的哪个消费者会怀孕?哪个手机用户会转网?大数据技术和传统的数据处理技术有什么不同?企业家最需要的核心思维是什么?题图的故事:明明正常的航班会告诉你取消了,这背后又是什么逻辑?今晚继续和你聊聊企业不得不知道的数据科学。文/王国文 中国(深圳)综合开发研究院供应链管理研究所所长大数据能够预测零售企业的哪个消费者会怀孕?预测手机用户会转网?大数据技术和传统的数据处理技术有什么不同?如何理解大数据1.0和大数据2.0?企业家最需要的核心思维是:数据、数据科学是战略资产。资产是要投资的,投资是有回报的。20多年前一个小银行的数据投资,可以造就今天基于数据的金融企业巨头。题图的故事:明明正常的航班会告诉你取消了,这背后是什么逻辑?上周在推送的文章:《企业的数据科学-你至少要懂哪些?(上)》中,我们提到了沃尔玛的竞争对手塔吉特(Target)利用大数据精准营销的案例。今天,让我们继续来看看塔吉特的案例。以下内容编译自《企业数字科学》一书,本文有删节。1、大数据能否解决精准预测的问题?为了跑在竞争对手前面,塔吉特想用大数据预测哪些人要生孩子。如果你做到这一点,就可以在竞争对手采取动作之前捷足先登,优先营销。基于历史数据,他们分析了哪些客户买了什么东西之后生了孩子,而且提取出能够预示客户怀孕的信息。例如,怀孕的母亲会改变食谱、改变穿戴、开始维他命补给计划,等等。这些指标,可以从历史的消费数据提取出来,导入预测模型,然后进行市场营销。关于预测模型的细节,可以回头再说。这里面需要说明的是,预测性模型能够从大数据复杂的世界中提取信息,关注到某一组特定预测性指标,它们与某种特定的兴趣相关联(谁会转网,谁会大量购物,谁会怀孕)。重要的是,在沃尔玛和塔吉特的案例中,数据分析并不是用于验证某种假定,而是希望从大数据中发掘出有价值的东西,例如预测未来消费趋势。在使用大数据预测通讯公司的客户是否会转网的问题上,实际上通过设计一个DDD模型来预测此类问题。通讯公司会有千万级、上亿级的客户,每个月都会有大量的合约到期。在美国,客户可以随时转网到另外一个通讯公司。如果能够预测客户在未来会转网,这种技术可以用于更大规模的人口,应用于更多的领域。所以说,数据科学和数据挖掘可以用于直接营销、在线广告、信用评分、财务交易、客户帮助管理、防止欺诈、搜索评级、产品推销,等等等等。很多时候,基于大数据驱动的自动决策制定过程,并没有引起企业的高度重视。自上世纪90年代以来,自动决策在很大程度上改变了银行和信用卡行业。那时候,银行和电讯公司投资庞大的系统,用数据管理防欺诈的控制决策。在零售系统越来越计算机化的过程中,营销决策也随之自动化了。其中最著名的案例,就是Harrah赌场的奖励项目,以及亚马逊和Netflix的自动推荐项目。我们已经看到了广告营销的巨大变革,主要的原因就是消费者在线上的时间,而且对广告决策的“秒级”反应。2、数据处理和“大”数据有一点值得讨论的是,数据处理(Data Processing)并不等同于数据科学。数据处理和加工是数据科学的关键支撑,但又太泛化了。例如,当今很多技巧、系统和技术都被误认为是数据科学。明白其中的不同,对数据科学和数据决策尤为重要。数据科学需要获得数据,从复杂的数据工程中获益,数据处理技术可以支持数据科学,但它本身并不等同于数据科学。数据处理对于数据类的很多任务来说都很重要,包括有效的交易处理、现代网络系统处理、在线广告活动管理等等,但这些并没有涉及提取知识或者做数据驱动的决策。基本上讲,“大数据”是指对传统数据处理系统来说太大规模的数字组,所以需要新的处理技术。跟传统技术一样,大数据技术用来完成很多任务,包括数据工程。有时候,大数据技术用来实施数据挖掘技术。然而,很多人并不知道,大数据是用来支持数据挖掘技术和其它数据科学活动的数据处理过程。纽约大学的经济学家Prasanna Tambe研究发现,大数据应用与企业产出率的提高有密切关联,大数据应用的标准差提高一个点,产出率比平均水平高出1-3个百分点。而对于大数据应用遥遥领先的企业来说,这个指标要高得多。3、从大数据1.0到大数据2.0要了解大数据技术的发展状况,可以用互联网技术的商业应用做例子。在Web1.0时代,企业忙于投资基本的互联网技术应用,建立网络存在,建立电子商务能力,提升企业运营效率。目前,我们可以想象企业正在处于大数据的1.0阶段。企业正在忙于建立大数据处理能力,主要用于支持现有的运作系统,比如说,提高运营效率。当企业完全采用了Web 1.0之后,(在这个过程中,也促使了底层技术价格下降),企业就开始考虑网络能给他们带来什么,如何能通过网络提升企业日常做的事情,这样我们进入到了Web2.0时代,企业开始发掘和利用网络的互动本质。这种思维方式的转变所产生的变化是巨大的。最明显的就是网络社交的出现,和个体消费者(公民)“声音”的崛起。从这一点上,我们可以展望大数据2.0。当企业可以以一种灵活的方式来处理海量的数据的时候,他们就会问,“我现在可以做哪些以前不能做的事?或者做哪些以前做不好的事?”这就将使我们进入到大数据的黄金时代。《企业数据科学》介绍了大数据的基本原理和技术,给出了比今天的认识更加广阔和深入的应用图景。4、数据和数据科学能力是战略资产数据科学的一个基本原理,就是: 数据,以及从数据中提取有价值的知识的能力,应该被视为核心战略资产。大多数企业认为,数据分析主要是从现有数据中实现价值,也没有认真考虑企业是否有合适的数据分析人才。将数据和数据科学视为战略资产,企业投资大数据的思维就会转变。目前的情况是,很多企业并没有支持决策制定的数据资产和数据人才。如果把数据和数据人才作为资产来考量,资产是要投资的。建立一个顶级的数据科学团队,将给决策带来巨大变化。下面讲一个如何投资数字资产、获取可观收益的案例。这里说的是90年代小银行Signet 银行的经典案例。在上世纪80年代,数据科学已经改变了客户信用评级的方式。以数据建模分析信用水平的概率取代了人工的评估。这个转变极大地提升了规模收益。在当时的条件下,银行的信用卡业务的收费都是一样的,这有两个主要原因,一是没有技术应对庞大的数据量,二是客户不接受价格歧视政策。所以,当数据模型开发出来之后(此处有删节),所有大银行都不接受。只有Signet认识到,一小部分客户,实际上贡献了信用卡业务超过100%的利润(因为其它业务有亏损)。如果他们能够做概率分析,就能够给最佳客户更好的服务,而且可以“横扫”大银行的现有客户。那么问题来了 – 银行遇到的最大的问题就是没有数据。虽然他们已经采用了差异化的条款给不同信用等级的客户,但是手上的数据量远远不够,没有可能做数据处理和概率分析。这时候他们采取了一个非常大胆的举动,对所有的客户随机给予优惠条款以获得数据。这一下子使信用卡的坏账率大幅攀升。在之后的几年中,银行顶住股东的压力,一边亏损,数据工程师一边建模和做数据矫正、价值分析。他们把这个亏损视为数据资产投资。采用了数学方法之后,运算结果产生的收益大大超出了他们的想象。这部分业务收益大大增加,最后从银行业务分离出来竟成独立的盈利公司。两个数据科学家,Fairbanks成了董事局主席兼CEO,Morris成了总裁兼COO,他们将数据业务扩展到所有业务范畴。这个小银行可能默默无闻,但第一资本(Capital One)已经是闻名天下了。他们成了信用卡发行量最大、收费最低的公司之一。2000年的时候,公司号称在进行45000多个数据科学测试。5、后记将数据和数据科学作为核心战略资产,这应成为企业家的固有思维。有了数据,就有了数据的战争。今天的题图,说的就是一个汇总航班大数据的APP-航旅纵横推送给我的信息,当天唯一的若羌-库尔勒-乌鲁木齐CZ6680航班取消的信息,让我从阿尔金山海拔4000多米的高原驱车500多公里赶到若羌机场的努力几乎泡汤。在时有时无的信号中忙乱地安排了应对之策之后,发现航班正常。南航不想给出解释,航旅纵横就这样肆无忌惮地通知了南航的客户航班取消,这背后是什么(强盗和流氓的)逻辑?数据为王的时代即将来临!所以说,赶紧醒醒吧,不懂点大数据,下场会很悲哀,我的损失那就算不了什么了。
1.业务理解每个项目,无论其规模大小,都从业务理解开始,这为成功解决业务问题奠定了基础。需要分析解决方案,并且通过从业务角度定义问题、项目目标和解决方案需求,以在此阶段发挥关键作用。和后面9个阶段相比, 这一阶段至关重要。2.分析方法在明确说明业务问题之后,数据科学家可以定义解决方法来解决它。这样做涉及在统计和机器学习技术的背景下表达问题,以便数据科学家可以识别适合于实现期望结果的技术。3.数据需求分析方法的选择决定了对数据的需求,因为要使用的分析方法需要特定的数据内容,格式和表示方法,这些都需要在业务领域专家的指导下完成。4.数据收集数据科学家识别并收集与问题域相关的数据资源结构,非结构化和半结构化。在遇到数据收集方面的差距时,数据科学家可能需要修改数据要求并收集更多数据。5.数据理解描述性统计和可视化技术可以帮助数据科学家理解数据内容,评估数据质量并发现对数据的初步见解。重新审视上一步的数据收集可能是弥合理解上的差距所必需的。6.数据准备数据准备阶段包括用于构建将在建模阶段使用的数据集的所有活动。包括数据清理,组合来自多个来源的数据以及将数据转换为更有用的变量。此外,特征工程和文本分析可用于导出新的结构化变量,丰富预测变量集并提高模型的准确性。数据准备阶段是最耗时的。这个过程有可能占到整个项目时间的90%,通常也会是70%。但是,如果数据资源得到良好的管理,良好的集成和清理,从分析 – 而不仅仅是仓存储 – 的角度来看,它可以降低50%。自动化数据准备的一些步骤可能会进一步降低百分比:电信营销团队的成员曾告诉我,团队以这种方式将创建和部署促销所需的平均时间从三个月减少到三周。7.建模从准备好的数据集的第一版开始,数据科学家使用训练集 – 历史数据,其中感兴趣的结果是已知的 – 使用已经描述的分析方法开发预测或描述模型。建模过程是高度迭代的。8.评估数据科学家评估模型的质量,并检查它是否完全和适当地解决了业务问题。这样做需要使用预测模型的测试集来计算各种诊断测量以及其他输出,例如表格和图形。9.部署在已经开发出业务发起人批准的令人满意的模型之后,将其部署到生产环境或类似的测试环境中。这种部署通常最初限制为允许评估其性能。将模型部署到运营业务流程通常涉及多个团队,技能和技术。10.反馈该方法的流程说明了问题解决过程的迭代性质。模型不应该创建一次,然后部署并保持不变。相反,通过反馈,改进和重新部署,模型应该不断适应条件进行改进。在项目过程中,需要模型及其背后的工作持续为项目提供价值,改进解决方案。通过从实施的模型中收集结果,组织可以获得有关模型性能的反馈,并观察它如何影响其部署环境。分析此反馈使数据科学家能够改进模型,提高其准确性,从而提高其实用性。如果作为整个过程的一部分进行,这个经常被忽视的阶段可以产生大量额外的好处。