作者 | Jeremie Harris翻译 | MikaCDA 数据分析师原创作品,转载需授权首先我要说的是,我是一名博士肄业生。这个头衔给我带来了所谓的光环,它暗示我在研究生院待过,做过一些学术研究。完成博士学位,意味着你不过是千万个”书呆子”中的一员,而在学了几年后辍学似乎显得你更有个性。人们期待知道你之后会做些什么。他们可能会说,“特斯拉的CEO Elon Musk就选择放弃研究生学位,离开学校去创业,你也可能成为下一个Elon!”那么如果想入行数据科学,学历重要吗?一定需要博士学历或研究生学历吗?在本文中我将分享我的看法。我在数据科学导师制创业公司工作。在工作中,我已经面试过数千位有抱负的数据科学家,当中有些人有博士学位,有些有硕士学位,有些是本科生,也有各个阶段的肄业生。这也让我对数据科学职业有了更深的认识。STEM:科学(Science),技术(Technology),工程(Engineering),数学(Mathematics)这四门学科有许多人会向他人咨询,是否要继续深造读研或读博,而当中很多人对前景没有全面的分析。其实不是所有的学位都适合每个人,原因如下。一、博士学位(这可能会让许多有博士学位的人感到不舒服,在此我提前道歉。)“我看到许多数据科学工作都需要博士学位。我是否要有博士学位才能成为数据科学家呢?“不,并不需要。不要误会我的意思,博士头衔的确会给你带来明显的优势。但也要考虑一些现实因素。如果你的目标是成为数据科学家或机器学习工程师/研究员,那么有博士学位会给你加分不少。但与此同时也要考虑以下两点:1.获得博士学位需要非常长的时间。2.除非你跟着合适的导师,攻读合适的学位,否则你可能学不到任何有价值的东西。针对第1点,在美国或加拿大,获得博士学位需要4年到8年才能完成。平均需要5到6年,具体取决于学校。现在让我们把它放到透视中。在数据科学领域瞬息万变,5年内各种成果层出不穷。要知道,在5年前Spark、XGBoost、jupyter notebook、GloVe、spaCy、TensorFlow、Keras、Pytorch、InceptionNet、ResNet、强化学习等等都还不存在。因此,除非你打算当新技术出现时,花时间自己钻研。否则你会发现学习期间接触到的技术远远跟不上当下的发展。这意味着即使你毕业后,还需要自己学习这些技术。关键在于,数据科学和机器学习的发展非常快,在未来只会发展得更快。因此,当考虑攻读数据科学或机器学习相关领域的博士学位时,你实际上是把赌注都下在你所要学习的领域。你希望在毕业时,该领域还是炙手可热的。而这样的赌注很冒险,而且赌注很高。第2点,思考一下你的导师是谁,为什么他们没有在Google或Facebook工作。当然,有些人更喜欢学术研究,而不是在行业中运用数据科学或机器学习。但值得记住的是,行业顶级的机器学习人才的薪资是非常丰厚的,因此学术界的可能会稍逊一筹。当然,有些地方也有些例外。这主要指的是加拿大的Vector Institute或MILA;麻省理工学院和美国伯克利的数据科学课程等顶级精英项目。总结一下:如果你只想成为Airbnb的深度学习工程师,那么博士学位一定程度上能成为你的敲门砖。但是,如果你不是在顶级项目中攻读博士学位,那么不要期望被行业顶尖的公司录用。但是,如果你想找份普通的数据科学工作,获得博士学位可能并不是正确的举措。你可以用4到8年的时间获得丰富的工作经验,去成长为一名真正的数据科学家,那么出现新技术时,你能更好的进行预测,保持领先的位置。如果你考虑攻读与数据科学无关领域的博士学位(例如物理,生物学,化学),并且目标是找数据科学方面的工作,那么这条建议可能有些刺耳:如果你离毕业还有18个月或更长时间,而且你确定自己想成为一名数据科学家,那么可以考虑辍学。考虑到沉没成本,你应该对之前决策感到质疑,根据我之前的经验来看放弃可能是正确的选择。二、硕士学位入行数据科学需要硕士学位吗?视情况而定。以下是我列出的记分表,如果根据你的情况,分数大于6,那么答案是“硕士学位可能会有所帮助”。你有非常相关的STEM背景(物理、数学、计算机科学等本科学历):0分你有较为相关的STEM背景(生物学、生物化学、经济学等本科学历):2分你没有相关的STEM背景:5分你有不到1年的Python使用经验:3分你没有编程相关的工作经验:3分你不认为自己擅长独立学习:4分当我说这个记分表实际是一个逻辑回归算法时,你不明白我的意思:1分注意:需要考虑的是,你是否需要数据科学硕士学位或数据科学训练营。如果选择参加训练营,要注意他们的激励措施:是否课程完成后保证聘用?是否有与训练营相关的求职指导服务?许多人都对训练营持怀疑态度,这是有道理的。但大多数忽略的是,他们对待大学所提供的相关硕士学位也该如此。巩固硕士学位就相当于训练营。如果你不在乎你的成绩,那么要注重你从中学到了什么。在选择相应的硕士学位和课程项目时要询问其研究生就业率。有的大学希望学生选一个简单的专业,而不是好的专业,这是一场心理博弈。你的目标是最终被聘用,找到理想的工作,而不是仅仅为了一纸文凭而付出时间和精力。即使完成了硕士学位,你还需要学习很多技能,可能比你预想的还要多。但只要硕士课程的时间较短(最好不超过2年),成本不是太高。三、本科学位总的来说,是的,成为数据科学家你需要相关本科学位。不仅仅是因为你需要掌握相关知识,而且公司并不认为你通过自学,参加训练营和一些在线课程就能胜任数据科学的工作 。但关于本科学位你要注意的是,如果你和科技行业的人聊聊,你很快会发现科技型工作中涉及到的内容要远远超出学校课本。这是因为学校所教的本科课程一般比现实情况要滞后5到10年。如果你学的是不会发生很大变化的专业是没有太大问题的,比如如物理、数学或统计数据等。但是如果你是工程或计算机科学专业,并且你在一家出色的公司实习,你想休学或肄业来获得更多的工作经验,那么你可以考虑这样做。如果你读本科的目的是为了获得一份工作,你已经在一家有不错前景的公司获得职位,那么何必多付几年学费呢。我的意思并不是你应该不读完本科就去工作,我想说的是,如果你完成了实习并且获得了相应的全职工作,那么对于是否完成学业应该有更开放的观念。而不是因为大家都这么做,才做出这种选择。结语在本文中,我给出的一些建议可能不是那么常规。但在数据科学这样快速发展的领域,惯例往往并不是最优选择。当今社会中,人们对传统教育价值的看法应该与时俱进。当然,这并不意味着正规教育以及研究生学位是不值得的。但是,不应该认为获得硕士或博士学位是必备的。如果你读研读博只是为了符合数据科学职业轨迹的刻板印象,那么你可能需要重新考虑了。
总的来说,数据科学是个跨学科专业,各个专业的人都可以申请。一、不过它有以下特点:1)面向职业培训、侧重工业界需求,没有博士学位为了符合工业界需求,专门的数据科学项目课程都很实际,侧重培养学生分析数据、解决问题的实际动手能力,课程一般不涉及理论知识。如果要读博士,申请统计和生物统计专业最对口,其次是计算机或者电子工程里做机器学习、数据挖掘这些相关方向的。另外,数学、IEOR、经济等专业也有少数博士生做的方向可以转到数据科学上,比如做优化(optimization)的。2)作为新兴专业,很多学校没有开设专门学位,综排前50里只有少数学校才有也就是说,申请选校范围很狭窄、选择非常少,这也决定了申请综排前50的学校,难度很大3)不同的项目对学生背景要求不同,录取标准各异大多数项目倾向于录取数学或者统计等计量学科背景的学生,同时希望申请人有软件编程基础、会写程序分析数据。比较牛的项目,更是如此。如果你只是上过高数、线性代数、概率统计这三门理工科专业都上的基础课程,那你的背景是不够的。尽管修课背景的缺乏并不代表你一定拿不到录取,但是你是处于劣势的。如果你修课背景缺乏,可能更适合的是商学院里开设的项目,这类项目侧重business/marketing analytics,而不是data science,对各种背景的申请人都更友好。 有的学校还有特殊要求,比如西北大学希望申请人上过Java课程、NCSU有很严格的面试。这也增加了申请难度。4)申请文书质量至关重要基本上所有学校的录取委员会,都希望在文书里能看到你对数据科学、对商务分析,能有一定的理解,而不是在对这个专业所知聊聊的情况下蒙头胡申。同时,作为很侧重职业培训的项目,有相关工作经验是加分。如果你有工作经验,那一定要结合工作,体现你对这个专业的理解和看法。如果你没有工作经验,你文书里更是要设计合适的内容,充分体现自己的背景和基础可以胜任这个专业。5)建议考GRE而不是GMAT商学院里一般都接受GMAT,但是有些项目并非商学院开设的。如果想选校不受限制,最好考GRE。二、关于数据科学专业申请定位,其实很简单:1)背景很好,可以在综排前50里选校;除非真的很牛,否则不要只考虑综排牛校。2)其他人等,建议多申请一些50名以后的学校,会比较稳妥。另外,考虑到很多申请人可能也有其他选项,比如在申请数据科学的同时,也申请本专业,所以定位问题往往需要全面考虑。三、项目情况ds因为是比较新的一个专业,项目普遍比较新也比较杂,很多不同的学校有ds的项目,但是名字不尽相同。比如说Stanford ICME,Columbia, NYU Data Science, Northwestern Analytics, Georgia Tech Analytics这些都是ds或者是ds相关的项目。但是在申请的时候,不要看到ds就申请,一定要结合自己的背景,深入的了解之后再做决定,因为不同的项目是由不同的偏重的。举例来说Stanford 的项目因为是icme和stas同时申请的,所以偏重数学多一点,Columbia 因为是在工学院的下面,所以偏重cs多一点。大家也可以结合自己的本科专业和未来的职业规划选择项目,这样在申请的时候也更有优势。不同项目的信息是可以网上找到的,也可以问问自己的学长学姐,或者校友,他们会给你很多有用的信息。四、申请建议:GPA很重要,有精力的话,一定要保证自己的GPA是漂亮的。ds项目是很偏重数学和编程的,这两方面的课程成绩尤为重要。GPA不是唯一的申请条件,但是绝对是很重要的一项。接下来,暑期科研可加分,对于大二大三的同学,尤其是大二的同学,可以在大三暑假的时候去做一份暑期科研。大三的同学应该申请暑期科研申请的差不多了,还没有申请到的同学可以继续努力,但是暑期科研对于申请来说绝对是一个加分项。暑期科研一般来讲,最最现实的意义就是国外教授的推荐信。实习可加分,大部分大三的同学应该都会遇到找实习的问题。首先,不要着急;其次,有的放矢,一定要考虑好和未来的申请相关的实习,不一定是big name,小公司也可以,只要适合申请有关的,都可以算作是一份好的实习,在实习的过程中,也是好机会了解行业的现状。知道什么是应用中重要的,而且你可能会发现和之前科研中相比,工作中真正重要的部分是不同的。申请实习的同学,简历也是很重要的,不要直接用申请学校改好的简历,毕竟企业和学校是不一样的。还是要稍微改一下地,突出自己的优势。而且国内和国外的简历要求也是不一样的。最后,因为ds是一个交叉学科,所以其实对于各方面的能力要求都有一点,不用因为觉得自己的背景差一点就气馁,有很多背景知识是可以自己提高的,做一些相关的科研项目,上一些网上的课程都是很好的选择,当然也是可以写在简历上的。
导读为跟进“名校数据学位巡礼”板块,察言观数今天奉上“牛津大学社会数据科学博士”招生简章。社会数据科学博士是牛津大学互联网学院联合统计学、工程科学、社会科学等院系2019年开设的新项目,申请截止日期为2019年11月15日。该项目为申请者提供关于人类行为非结构化数据前沿研究的机会,体现了社会学与数据科学的融合。课程介绍社会数据(通常来自于移动设备、社交媒体或其他可穿戴设备)提供了一种获得大规模数据的新方法。用凌乱的真实数据创建可行的数据集,开发分析数据的工具和技术,透过解释、预测和测试来描述现实世界。社会数据科学与个人和社会的行为息息相关,其核心是产生并分析实时数据。该项目的课程由多个院系开设,分为项目推荐课和学院通识课,学生可根据需要自主选课。工程学统计学社会学人口统计学信息,交流与社会科学社会数据科学互联网社会科学申请要求硕士阶段均分65分以上;本科阶段均分85分以上(双一流,985、211高校)或均分90分以上(其他大学)雅思7.5(单项不低于7.0)/ 托福iBT 110 /CAE191(最低项185)/CPE191(最低项185)不要求GRE和GMAT分析能力强,熟悉互联网相关技术申请材料成绩单CV/简历个人陈述和研究计划英文学术出版材料(不强制论文)三封推荐信官网链接:https://www.ox.ac.uk/admissions/graate/courses/dphil-social-data-science?wssl=1#编辑 | 千寻
全文共8242字,预计学习时长24分钟图源:Unsplash是什么让数据科学成为一个性感的行业?当把海量数据注入到新兴行业中,并随之而涌现的大量令人兴奋的新技术。如今,数据科学不再是纯抽象领域的代名词,而是随处可见。从大型产业到学术研究,无不体现出社会对该专业领域知识需求的增长。如:语音识别、计算机视觉中的物体识别、机器人和自动驾驶、生物信息学、神经科学、系外行星的发现和对宇宙起源的理解、以及组建廉价且成功的棒球队。数据科学从本质上看涵盖了多学科,所以对其更准确的概括应该是知识提取的过程。基本上就是指成功调试工具进行更高效的信息采集、存储、数据处理和合成。美国计算机科学家和图灵奖获得者吉姆·格雷(Jim Gray)认为,继经验主义、理论主义及计算模式的思潮过后,数据科学一跃成为“第四范式”。用格雷的话说,信息技术改变了一切。不知不觉中我们已步入第四次工业革命,数据科学连同机器学习与分布式计算一直处于前沿领域,日后的信息技术只会更加普及。图源:Unsplash话又说回来了,数据科学到底是什么?在上述例子中,数据科学家就是整个企业的核心。他/她必须将应用领域的知识与统计专业知识相结合,并用计算机代码来实现他们。身处发展如此之快的领域,那么谁又是真正值得信赖的专家?下面是一些该领域最具权威的领军人物,他们凭借自己的思想和行动致力于信息技术的普及。没有这些人,带动数字世界发展的科技巨头也就不会在人工智能或机器学习方面取得巨大成就。吴恩达(Andrew Ng,美籍华裔)人工智能研究的进步呈现出了前所未有的快,得益于更多的人加入到了研究队伍中,人数比以往任何时候都要多。我很看好这个趋势,我们需要不断招贤纳士!——吴恩达(@AndrewNg)2019年3月18日吴恩达是AI和机器学习领域最具权威的专家之一,与他人共同创建并指导了谷歌大脑(Google Brain)研究项目,曾是百度的副总裁和首席科学家,带领了人工智能研发团队。此外,吴恩达也是教育事业的先锋者,其联合创办的 Coursera课程平台深受大众喜爱。而且提起深度学习近年来的变革,人们总会把吴恩达比作催化剂。李飞飞(美籍华人)在国会山的时候,我跟议会的成员、参议员还有Stanford HAI的人聊了聊以人为本的人工智能。看到了一句非常好的话,是对人工智能的展望,“人工智能将会让人类之间的联系更加紧密”——李飞飞(@drfeifei),2019年6月12日身为斯坦福大学的计算机科学教授,李飞飞目前也是以人为本人工智能研究院的联合主任。她曾是斯坦福人工智能实验室的负责人(2013-2018),被公认为是人工智能、机器学习、计算机视觉和认知神经科学领域的引领者。李飞飞为 ImageNet虚拟数据库项目付出了很多,这也是她最大的成就之一,该数据库主要用于创建视觉识别软件。可以说深度学习变革的进展离不开她在此项目中所作的努力。Alon Halevy这句很短的话是我之前写的:搜索的难度会越来越大,因为数据因人产生同时也为人所用。感谢HaixunWang鼓励我写下这些话!——Alon Halevy(@AlonHalevy)2019年5月3日Halevy是一名以色列裔美国计算机科学家,也是数据集成领域的领先研究员。他从2005年到2015年担任谷歌的研究科学家,负责谷歌数据融合表(Google Fusion Tables),随后成为技术招聘部门的主管。他还当过华盛顿大学的计算机科学教授。Halevy是斯隆奖得主,于2000年荣获了美国“青年科学家总统奖(PECASE)”。2006年度的时候,获得了十年一度的VLDB Endowment奖。他也是Nimble技术公司(现更名为Actuate企业)和Transformic Inc公司的创始人。Halevy于1993年在斯坦福大学获得了博士学位。Ben Lorica发博:人工智能和机器学习会通过整个组织进行再训练,因此,企业有必要对员工进行全面性的训练。——Ben Lorica(@bigdata),2019年6月26日Lorica是奥莱利媒体公司( O’ReillyMedia)的首席数据科学家,同时是年度人工智能大会以及Strata数据大会的项目负责人。他的研究方向是商业智能、数据挖掘和机器学习。Lorica在推特上十分活跃,也是一位高产的作家,其出版的书籍会定期在O’ReillyMedia的博客上发布。Bernard Marr影响我们每天生活的关键因素就是快速发展的技术产业。Statista公司发布的一份报告显示,预计全球自动化市场的营业额将在2020年超过500亿美元。——Bernard Marr(@BernardMarr),2019年7月10日Marr是个未来主义者,他的书在世界各地都非常畅销,演讲也十分受欢迎。很多政府和各大企业都会邀请他来当人工智能和数据数据科学的顾问。Marr的终极目标是让世界更好地运用数据。Chris Surdak在教条延续几个世纪以后的今天,分形传达的信息令人不可思议——所有复杂甚至既存的法则都难免留有数学的印记。机器人流程自动化(RPA)、机器加工(Machining)以及人工智能的普及一旦为人们所接受,就不再是晦涩难懂的东西了。——Chris Surdak(@CSurdak),2019年5月9日Surdak声称自己就是个“大数据”。他是一位作家,也是名火箭专家,同时还是技术策略与大数据的专家(这并不见怪)。现在的Surdak没事写写书,经营着自己的顾问公司,以前他在惠普、戴尔、花旗银行都从事过。他一直致力于研究如何最大化利用数字经济的潜力。DJ Patil数据科学是团队活动。——DJ Patil(@dpatil),2019年6月15日2015年至2017年,DJ Patil是美国首席数学家。2008年他与脸书早期的数学科学负责人Jeff Hammerbacher共同命名了“数据科学家”一词的现代版本,这在当时也引起不少关注。目前Patil在Devoted Health公司担任技术总监,之前是RelateIQ(被Salesforce收购)的产品副总裁、Color Labs的首席产品官以及LinkedIn的数据产品负责人和首席科学家。担任国家第一任首席数据科学家期间,他还成立了新的医疗项目,有精准医学计划、“癌症Moonshot”倡议;此外也进行了新一轮的刑事司法改革,通过了数据驱动司法和警察数据提议。帕蒂尔在2016年荣获国防部杰出公共服务奖章。Doug Cutting之前在红木城福克斯剧院参加过两场活动,真的觉得今天这场庆祝Cloudera和 Hortonworks两公司的合并更有意思,是有在向观众传达信息的,而且放了“桶头”的摇滚乐。——Doug Cutting(@cutting)2019年1月10日Doug Cutting创立了搜索索引器 Adobe Lucene和网络爬虫(或蜘蛛)Nutch,二者是通用开源软件平台必不可少的组件,不仅如此,还将通用开源软件(如Linux 和MySQL)的性能提升到了垂直搜索层面。Cutting毕业于斯坦福大学,在施乐帕罗奥多研究中心(Xerox PARC)从事Scatter/Gather算法和计算风格方面的研究工作。他曾是搜索引擎Excite的一位首席设计师,是Apple’s V-Twin 文本搜索框架的主要构思者,之后创建了 Lucene。Dean Abbott毋庸置疑,科学和艺术对高效的机器学习来说缺一不可,因为数学就是文字。机器学习哪有什么常识啊,所有的“知识”都是输进去的数据!——Dean Abbott特(@DeanAbbott),2019年6月7日Abbott是SmarterHQ的联合创始人,这是一家专注于研发个性化人工智能的公司,他在里面也担任着首席数据科学家的角色。Abbott写了很多有关数据科学的书,比如《应用预测分析——专业数据分析师需了解的原则和技巧》(Applied Predictive Analytics: Principles and Techniques for the ProfessionalData Analyst)感兴趣的话可以看看他的博客,上面还有更多个人成就。Hadley Wickhama <- factor(c("character","in", "the", "streets"))b <- factor(c("integer","in", "the", 'sheets'))c(a, b)#> [1] 1 2 4 3 2 1 4 3#rstats——Hadley Wickham(@hadleywickham)2019年7月9日大家可能不知道这个,但其实Wickham的成就随处可见。统计语言中经常会用到他创建的许多包(package),全世界下载量最多的三个R包都是他的。简言之,他就是R方面的专家,而且写的书也跟这方面有关,如《数据科学中的R》(Rfor Data Science)。平日里若不是研发统计模型,那Wickham一定是在出席各个大数据会议,宣传自己的想法。图源:UnsplashHilary Mason肯定有很多人不认同,但我依然喜欢发邮件,我觉得它对维持人与人间的关系有着不可小觑的作用,因为它真的有在提高人们沟通的效率。不过我说的也不一定对。——Hilary Mason(@hmason),2019年6月11日Mason是数据产业领域的领军人物之一,跟许多组织开展合作,将数据科学更好地融入到传统经济领域中。之前她是Bit.ly.公司的首席科学家,最近忙于自己人工智能企业(Fast Forward实验室)的建立。Mason还有一个角色,就是HackNY的联合创办人,该组织专注于培养未来的计算机科学家和计算机工程师。Ilya Sutskever机器学习非常神奇,核心概念并不多,没有过分地违反常理,并且在正确的引领下,该领域前沿的大致方向也是正确的!——Ilya Sutskever(@Ilya Sutskever)2019年5月17日Sutskever目前是OpenAI的首席科学家,该人工智能初创公司由伊隆·马斯克成立。Sutskever研究的是人工智能的风险计算以及如何应对。在整个职业生涯中,他为深度学习做出了巨大贡献。同时,他也是AlexNet神经网络的联合发明者。在多伦多大学获得了计算机科学博士学位。2015年,Sutskever荣登《麻省理工科技评论》35 Innovators Under 35。Jake Porway今天要讲数据科学建立的操作和服务于SXSW社会影响力的人工智能,我非常激动。加入330对话吧!——Jake Porway(@jakeporway)2019年3月8日Porway是DataKing的创始人兼高级总监,这是一支由代码人和统计学家组成的跨学科队伍,他们的共同目标就是普及人工智能和数据科学。Porway最近在纽约时报的搜索和研发实验室担任数据科学家。曾获得了哥伦比亚大学的计算机本科学位和加州大学洛杉矶分校的统计学硕士和博士学位。John Myles White统计实在是太难了,但那些不相信它的人(比如心理学家)很有可能传递错误的信息。事实证明的确如此,而且这个问题一直存在。——John Myles White(@johnmyleswhite),2019年6月30日John Myles White目前是脸书的数据科学家,平日也会通过Julia编程语言的搞一些开发。他专攻的对象是机器学习和统计(尤其是R)。除去全职开发员的身份,怀特也写各种各样的书,比如“黑客看的机器学习”、用于网页优化的Bandit 算法。Kira Radinsky我为自己的学生感到非常骄傲,他们写出了一个自动化公式1!可以在以色列的高速公路上开!——Kira Radinsky(@KiraRadinsky),2018年10月19日Radinsky是eBay的数据科学总监,也是eBay以色列分部的首席科学家。她曾是SalesPredict公司的首席技术官,该公司后来被eBay收购。Radinsky把所有的热情都投在了预测数据挖掘上。她是数据科学界燃起的一颗新星,登上过福布斯30Under30榜单。Kenneth Cukier人工智能取得的成就当然有其他令人振奋人心的实例,只不过是通过间接或二阶效应体现。在医疗诊断上,人工智能的应用或许只适用于人类——但却降低了辐射的应用,对病人的安全保障和就医环境来说是一次巨大的进步。——Kenneth Cukier(@kncukier),2019年6月20日Cukier是经济学人的数据专家,同时也是一位高产的作家,出版的《大数据:一场能够改变我们生活、工作和思考的变革》(Big Data: A Revolution That WillTransform How We Live, Work, and Think)。他的时间大部分都用在了讨论人工智能和大数据的未来上。Cukier在TED(这是他参加的为数不多的公开讲话)上说过这样一句话“大数据是更好的数据”。Kirk Borne沉浸式创新的下一代前沿领域——VR和AR将结合数据科学、人工智能、创造性能、机器学习以及设计和设计思维为训练和计划提供稳定的环境。——Kirk Borne(@KirkDBorne)2019年7月10日Borne是一名数据科学家,被誉为当今世上最具影响力的人物之一。他研究人工智能和大数据,因此又被IPFC喻为数据科学领域的“排行第一的数字影响者”。你不仅能在世界各地的会议上看到他的演讲,这个人在天文方面也能侃侃而谈。之前他在NASA的哈勃太空望远镜数据团队工作过一段时间。Marck Vaisman能在下周纽约市举办的DominoRev峰会上讲话,我很激动!到时候会分享我从商从政以及学术方面的有关数据科学的经验,也希望从更多在场的优秀数据科学领导者身上学到更多的东西。——Marck Vaisman(@wahalulu),2019年5月14日Vaisman是乔治敦大学和乔治华盛顿大学的兼职教授,给研究生教授大数据的课程,也是微软公司的技术解决专员。因为是做数据科学的,他会帮助顾客操作Azure云端,云端也将运用于数据科学、高级分析和人工智能的处理。Vaisman是R的编程者和倡导者,在2010年启动了统计编程哥伦比亚地区项目,同时也是数据社区哥伦比亚地区的联合创始人,组织的成立推动了该地区数据科学和分析的发展。Monica Rogati我并不觉得数据科学家一抓一大把,但我相信想成为数据科学家但不切实际的人有很多。“我是个打篮球的,但不想做枯燥的训练,只想扣篮,像电视上一样。NBA我来了!”——Monica Rogati(@mrogati)2019年2月14日Rogati是Data Collective (DCVC)的股权合伙人,也是CrowdFlower的科学顾问。2013年至2015年间,她是Jawbone的数据副总裁。曾经也是LinkedIn的高级数据科学家,在这里用五年的时间创建了最初的工作匹配系统,也为LinkedIn建立了首个机器学习模型——“可能认识的人”推荐功能。2014年,Rogati被《财富》(Fortune)评为“大数据全明星”,同年,Fast Company授予她“百位最具创造力商业人物之一”的荣誉称号。她获得了卡内基梅隆大学的计算机科学博士学位。Lukas Biewald深度学习班上有位同学(@thegautam)借助GPT-2模型生成网站域名,效果太棒了。——Lukas Biewald(@l2k),2019年6月24日Biewald是Weights&Biases公司的创始人,该公司主要创建适合机器学习的开发工具。早在2007年,他是FigureEight Inc.互联网公司的联合创办者,该公司当时是收集用于机器学习的训练数据。在那之前,Biewald曾是Powerset的高级科学家和经理,Powerset是一家自然语言搜集技术公司,随后被微软收购。自2005年至2006年间,他带领Yahoo! JAPAN的搜索团队,专注于研发统计机器学习,提高国际市场的网页搜索功能排名。Biewald拥有斯坦福大学的数学本科学位和计算机科学硕士学位,在2010年因创建GiveWorkiPhone应用程序荣获Netexplorateur奖,该程序让用户只需通过简单的操作就能足不出户地帮助难民和发展中国家的人。Inc.杂志上说的30位30岁以下的商业精英就有他的名字。Nando de Freitas剑桥大学的研究员研发了一款可以识别、筛选生菜的机器人,并且不会破坏生菜。——Nando de Freitas(@NandoDF),2019年7月8日Freitas是英国一家人工智能公司DeepMind的首席科学家,该公司是创建神经网络的,在2004年被谷歌收购。目前他是牛津大学计算机科学系的教授,研究机器学习领域中的神经网络、贝叶斯推断(Bayesian inference)和深度学习,凭借机器学习方面的工作他还获得过多项奖项。Peter Skomoroch很多合法的初创企业都会因为社会中的各种声音迷失了方向。我们是不是需要给人工智能初创企业来几场顾客报告?通过一些基础操作或者瞥一眼某位机器学习资深人士的融资演讲稿,可以了解很多商业案例的。——Peter Skomoroch(@peteskomoroch),2019年6月25日Skomoroch是LinkedIn的首席研究科学家,提供了“技能”及其他一些数据驱动的服务。他建立了数据整理(Data Wrangling),进行数据挖掘,提供预测分析咨询服务。在加入LinkedIn之前,他曾担任过Juice Analytics的高级分析总监、AOL Search的高级研究工程师,也是麻省理工学院Lincoln 实验室的研究人员。Skomoroch获得了布兰戴斯大学的数学物理学士学位。Sebastian Thrun谷歌眼镜的问世、Focalsbynorth智能眼镜的发布(我惊了!),当然还有我在Magicleap公司的第一周都非常棒,这个公司果然名不虚传。Focals可能是最赞的AR体验了,我迫不及待想看更多的Leap应用程序!——SebastianThrun (@SebastianThrun)2019年4月24日Thrun创立了Google X,自此在数据科学领域一举成名。该项目旨在研究未来技术和潜在领域。Magicleap之所以能够相继推出自动驾驶汽车、谷歌眼镜等就是拜GoogleX所赐。目前Thrun在斯坦福大学做研究,他也是Udacity的创始人。Wes McKinney蚁群算法(Ant colonies)跟C++构建系统有许多共同点。——Wes McKinney(@wesmckinn),2019年3月15日McKinney是Pandas数据库的创始人,致力于开发Python编码语言。他著的书不仅跟数据库有关,还拓展了很多Python领域的知识,经常是全球大大小小数据会议的重要人物。貌似只有数据专家才能关注他的推特,不过他的见解十分重要。Yann LeCun(法裔美国计算机科学家)常识植根于语言一直是一个误解。恕我直言,常识来源于你对世界的认知,相比语言它跟直观物理(IntuitivePhysics)有着更多千丝万缕的联系。不过这个世界少不了人与人的沟通,语言也就成为了其中的一部分。——Yann LeCun(@ylecun)2019年7月9日图源:Unsplash留言点赞关注我们一起分享AI学习与发展的干货如转载,请后台留言,遵守转载规范
文/程一祥如今,我们每个人都在谈论“数据科学”,哈佛商业评论杂志甚至将数据科学家定义为“21世纪最性感的职业”。在这个大数据时代,究竟什么是数据科学?数据科学领域的科学家、顶尖从业者们又究竟是怎样的一群人?他们在创造着什么令人着迷的东西?DT君将在2018年走访50位来自各行各业的数据科学领域的顶尖专家,希望能让你们了解这些神奇的人和他们神秘事儿,为你们一窥数据科学的未来与未知。赶在农历鸡年的尾巴上,DT君来到百分点在亚运村附近的新办公室,拜访了它的首席数据科学家杜晓梦博士。玩摇滚的数据科学家入冬以来,北京呼呼的大风,让首都的天空,没有往年那么阴霾。在亚运村附近的一间小音乐排练室里,为了迎接农历新年的到来,杜晓梦正和与几位乐队成员一起,排练着陈升的《北京一夜》。她双手抚在键盘上,聆听着吉他、贝斯和鼓的节奏,在最合适的时机弹奏黑白琴键,为音乐铺陈旋律,感受着乐队彼此之间的默契配合。杜晓梦是这支乐队的键盘手。与普通的摇滚乐队不太一样,这支乐队玩儿音乐以外,成员们平常大部分时间其实都在搞“副业”——数据科学,比如做做机器学习,搞搞图像识别,用大数据建建模什么的。(图片说明:杜晓梦和乐队正在排练)这不,就在去年,键盘手杜晓梦和萨克斯手苏萌合作的一篇关于赞助广告搜索中的多关键词定价策略的论文被ISR(Information System Research,由美国运筹学和管理科学学会出版,国际顶级学术期刊之一)收录。这是一支名副其实的数据科学家乐队。(图片说明:杜晓梦等人合作的论文Bidding for multiple keywords in sponsored search advertising: Keyword categories and match types被Information Systems Research期刊收录)在乐队中,杜晓梦是键盘手;在公司里,她是首席数据科学家。杜晓梦博士的研究主要集中在量化市场方向,曾多次在INFORMS Marketing Science Conference等国际顶级学术会议上发表研究报告。谈起自己与数据科学结缘,杜晓梦博士说,一切都还要从北大说起。一切都要从北大说起2003年对于中国互联网行业,是令人兴奋的一年。大洋彼岸刚刚走出科技泡沫的阵痛,世界正在经历互联网浪潮的又一个春天。这一年,马云成立网上购物平台淘宝网;马化腾推出了QQ游戏,开始对VIP服务收费;李彦宏的百度图片、新闻搜索服务上线。中国的互联网正在发生翻天覆的变化。这一年,杜晓梦来到了燕园。对于刚进大学的她来说,选择信息系统管理专业几乎是一个不用做太多考虑的决定。更何况那个时候,北大还有一个明星学长做榜样——同样是毕业于信息系统管理系的李彦宏创立了百度,彼时在北大引起了一阵不大不小互联网风潮。(图片说明:从本科到博士,北大是杜晓梦在数据科学道路上梦开始的地方;图片来源:视觉中国)虽然是女生,但杜晓梦从小就表现出来一种对数字的敏感性。用她自己的话说就是,“喜欢用数据去解释问题”。“我从小就喜欢刨根问底,喜欢去质疑一些事情”,杜晓梦说。她的这种质疑精神与北大的气质有着天然的共通之处。质疑、思考、创新,这些抽象的词汇在杜晓梦这儿,其实没有那么复杂,对于一个理工科爱好者来说,其实就是用技术来做一个产品的过程。“北大当时好多课都很有趣,我们发明了好多有意思的东西。”回忆北大的生活,杜晓梦印象最深的莫过于当年的她研究的“哼唱软件”了。当时,她和同学们正在研究声纹系统课题。声纹,就是声音的密码。如今我们讨论很多的语音识别等人工智能技术,也是基于声纹的特征逐渐发展出来的。声音作为一种复杂的生物特征,其变量比指纹还要丰富得多。“当时互联网音乐非常流行嘛,大家常在网上听歌。但是我觉得当时的音乐搜索功能太不智能,只有知道歌手或者歌曲名字才能搜索。但是如果知道了名字,那其实就不用搜索了嘛。”杜晓梦说,很多时候人们可能在某些场合听到一首歌,只记得一段旋律,那么当时的音乐搜索引擎就没办法使用了。于是,基于对声纹技术的探索研究,杜晓梦他们发明了一款哼唱搜索软件。这款软件相当于如今很多音乐app的“听歌识曲”功能——只要你能够哼唱一段旋律,系统就能实现对音乐的搜索——只不过比它们早了十几年时间。这个作品当时还获得了北大“挑战杯”五四青年科学竞赛的二等奖。“当时我们完全没有什么创业的想法,只是单纯地觉得这件事儿挺有趣的。”杜晓梦现在笑着说。那个时候,在北大的校园里,除了弥漫着科技创新竞赛风潮外,同学们还都普遍开始流行学习双学位。大家不再一成不变地沉浸在自己的专业中,交叉学科的概念开始越来越受欢迎。在这样的背景下,杜晓梦接触到了经济学。“我当时就觉得,经济学实在太有趣了!”杜晓梦回忆起刚去国发院上课的情景,依然兴奋地说道。当时在北大上课的老师,有很多都是现在中国著名的经济学家,包括林毅夫、周其仁、海闻等,这些“大家”们深入浅出的讲解,让杜晓梦的视野逐渐从技术拓展到经济,开始寻求两者之间的交叉点。后来,她师从苏萌教授,专攻市场营销模型专业。没错,就是文章开始时的那位萨克斯手。他不仅是乐队的萨克斯手,也是杜晓梦的博士生导师、百分点的创始人。也正是由于苏萌的影响,杜晓梦逐渐走上了数据科学这条“不归路”。骄傲的程序员与服务型的数据科学早在2009年,当杜晓梦还在北大上学的时候,她的导师苏萌就已经在筹备成立一家以“数据科学”为主体的公司。那时,苏萌带领一群博士挤在北大旁边一间七十多平的出租公寓里,花了几个月的时间,做出了国内第一款第三方个性化推荐引擎。当杜晓梦在2013年加入百分点时,她负责的数据科学业务仍是沿着推荐引擎这条路,研究如何打通用户的跨站点数据,优化电商的个性化推荐引擎。在公司里,她聚集了一批爱数据、懂统计、善编程的高端数据人才。他们大多高学历高技能,希望用数据分析改变一些事情。不过唯一的问题在于,那是在2013年,一个“大数据”还没在中国普及的年代,一个还都簇拥在移动互联网热潮怀抱里的时间点。“我们当时做线上服务,基本是不出差的,因为我们的大部分业务在网上就可以完成。”杜晓梦说,当时他们不需要跟客户解释什么大数据,大家追求的都是极致的算法和工程效果,较少考虑具体的业务问题。这样的工作模式培养了很多“骄傲”的程序员。一方面,国内数据市场还没有成熟;另一方面,她的数据科学团队又在追求极致的技术。这种市场与行业的认知脱节,是杜晓梦在数据科学上遇到的第一个挑战。“后来有一次,我们跟客户讲模型、讲大数据,他们对这个领域不了解,就听不懂你在说什么,然后觉得你这个东西没用,开始提各种意见。”杜晓梦说,那个时候,有些同事就没有耐心了,一些自己的”常识“,到了别人那里,就变成了“天书”,起争执是经常的事——“有时候,一些‘骄傲’的程序员感觉跟客户讲不通,甚至想掀桌子走人的都有。”随着行业的发展,百分点高层决定将公司的业务更多的从互联网转向企业级服务,不仅关注线上,更关注线下的传统行业。正是由于这次转型,很多“骄傲”的程序员也逐渐开始接触产业、接触实际业务。“有一次我们跟客户介绍价值度分析,他们听不懂我们的逻辑,就问为什么你要把用户分成八类而不是六类?为什么要这样分?在我们的角度,分成八类是算法决定的,是最科学的;但是后来我们明白,站在他们的角度,分成六类最符合实际应用场景的。”实践中,杜晓梦逐渐了解到,在数据科学里,业务规则有时候更加重要。2015年,转型后的百分点宣布获得D轮4亿元人民币的融资,刷新了当时中国大数据企业的融资记录。“数据科学,现在看来是一门非常接地气的学问,它一定是解决某一个业务问题的。这就要求你不仅要有学术知识,更要有行业洞察。”最初的那些“争执”,多是源自业务人员与技术人员的认知差异——业务人员不懂数据,数据科学家不了解实际业务。杜晓梦介绍说,现在自己的数据科学团队多是交叉背景人才,各自分领域进行研究,例如金融、制造业、安防、零售等等。在杜晓梦看来,通用型的数据科学家,就相当于“没用型”。如果不专注深入到某一行业的第一线,大数据是无法真正发挥价值的。对于杜晓梦自己来说,研究消费者行为是老本行,她最近的研究方向之一就是2017年风起云涌的“新零售”。数据科学下的“新零售”“新零售”这个词自从2016被马云与雷军同一天提出后,已经变成了又一个“风口”。盒马鲜生、京东3C等纷纷试水,业内关于这个话题的讨论层出不穷。时至今日,虽然对概念的解读还是百家争鸣,但是大家都不否认的一点,就是数据科学在背后的决定性作用。杜晓梦在博士阶段的研究课题是营销模型,主要围绕消费者对市场和营销进行数据分析和建模。关于“新零售”的探索,杜晓梦和她的数据科学团队则做了不一样的尝试——他们尝试通过联通数据的方式,构建新的业务场景,拓展商业的范畴。在宏观的数据视角下,杜晓梦看到了改变传统零售的机会。比如说,我们常去逛的商场。在杜晓梦的眼里,商场不是一家家店铺的集散地,而是一个由庞大数据交织的有机生命体。按照传统的线下商业模式,商场主要将店铺位招租给个体商家,然后收取商家的租金费用,每个店铺是相对独立的。但是,通过打通商场的消费数据,杜晓梦她们发现,店铺之间其实是密切关联的。“凡是去逛SK-Ⅱ商店的消费者,90%都会同时光顾星巴克。”杜晓梦说,数据分析让他们发现了品牌之间的联动效应,“这样我们可以建议在SK-Ⅱ的小票上印上星巴克的优惠券,实现品牌的交叉关联引流。如果没有数据分析,我们就不会发现这样这种跨品类整合营销资源的机会。”(图片说明:大数据让商场中店铺的营销策略,不再单一地以折扣方式存在。它可以通过品牌关联等方法灵活制定营销计划,拓展自己的商业边境)“再比如说我打通你的会员卡号和你的车牌号,当你进地下停车场的时候,机器就直接抬杆,等你购物完了之后,缴费处扫一下车牌,通过扣减你的会员积分就抵这个停车费了,就完全不用停下来交钱也不用扫码交钱,让购物体验更加便捷。”杜晓梦和她的团队还构思了很多诸如此类的新业务场景。如果没有数据支持,这些新的业务场景就没有办法实现。数据就像是用来拓荒的斧头,拓展了商业思维的尽头。不仅如此,杜晓梦说,她从数据中还发现了人们思维的变化。联通消费行为数据、社交大数据等,她们逐渐发现,人们更愿意在消费时,购买与自己价值观相符的产品或品牌。人们购物的原则不再是“物美价廉”这么简单,这是一股消费观念的升级。“这不是过去,例如办信用卡你送点东西就可以了,信用卡商现在要跟二次元、跟明星合作,这也是消费升级。”杜晓梦认为,数据体现了消费者观念的变化,数据分析能够提醒商家,要跟上这股变化。除了新零售以外,杜晓梦和他的数据科学团队还在电商、金融、公共安全等多个领域开展了关于数据科学的应用和研究。日前,他们正在和公安大学合作,尝试将知识图谱等数据科学技术应用到安防机器人、刑侦案件分析等领域,提升公共安全的效率,让数据科学从底层逻辑上帮助传统行业发展、变革。(图片说明:杜晓梦和他的乐队在岁末的年会上表演,大屏幕上弹钢琴的是百分点创世人苏萌教授。)在采访结束后几天后,杜晓梦和她的摇滚乐队在年会上,演唱了那首他们已经排练多次的《北京一夜》。窗外北风呼啸,屋内余音绕梁。不知过了多少个夜晚,也不只在北京,这群人对数据科学的热情才刚刚开始。题图 | 站酷海洛▍关于数据科学50人数据科学50人项目是DT财经旗下数据侠计划重点内容产品,旨在与数据科学领域KOL共同挖掘数据内容的价值。我们从商业数据科学领域选出最具代表性的50位先锋进行深度专访,50人由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。▍数据侠门派杜晓梦博士,毕业于北京大学营销模型专业,现任百分点首席数据科学家。专长于营销模型、消费者行为预测、互联网广告、社会媒体营销;擅长大数据统计建模及数据挖掘,精于归因模型、流失预警模型、社会网络分析等大数据商业模型;现负责百分点数据科学部管理工作。曾多次在INFORMS Marketing Science Conference等国际顶级学术会议上发表研究报告。▍加入数据侠“数据侠计划”是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。了解数据侠计划详情请回复“数据侠计划”,投稿、合作请联系datahero@dtcj.com。
导语:数据科学有着极其陡峭的学习曲线,学习者往往有面对“钢锯岭”之感。如今数据科学、大数据、人工智能、区块链、数字经济等热词横行。放眼宏观,《2018政府工作报告》中5次提到了“智能”、3次提到了“大数据”。“做大做强新兴产业集群,实施大数据发展行动,加强新一代人工智能研发应用”,来自国家战略层面的重视不言而喻。着眼微观,从人才发展角度,随着全国各省高考分数线的公布,考生和家长也没法休息,立刻投入到选专业的大战中。的确,人生重在选择,有时选择比努力还重要。莘莘学子十年寒窗,都希望能够在这一关键时刻选好人生之路。 大数据时代的到来,产生百万级人才缺口,企业愿意砸钱抢人才。据业内知情人士透露,全球化、一站式移动出行平台滴滴出行于2017年9月成立数据科学部,部分高级职位,例如数据分析专家、数据科学家等岗位收入逾五万元人民币,已成为人才将知识与能力转化为财富的又一佳话。大数据与人工智能发展的竞争,归根结底是人才竞争。我们来梳理一下关键问题:第一、“数据科学”的定义是什么?第二、“数据科学”需要什么样的技能?第三、成为“数据科学家”应该接受什么样的教育?问题一:数据科学是什么,怎么用?数据可以是数值、文字、图像、声音等。现在,各个专业领域都会产生各类独具特色的数据,所以有人说任何一个专业都会和数据科学打交道。严格来讲,数据科学的定义是模糊的,但是发展前景非常广阔。作为交叉学科,涉及范围广,横跨多个领域,包含大量应用技术,与应用数学、统计学、运筹学等多个学科相关,又与最新的技术领域,机器学习、深度学习、人工智能、物联网等 “亲密接触”。所以大家对数据科学产生了不同的理解,但最关键是【数据科学】这个瓶子到底装什么【酒水】。数据科学在不同在应用领域中的理论、方法和基础自然也都是数据科学的一部分,装着不同应用领域的【酒水】。我们在对北京大学王汉生教授的采访中,他谈到,以践行数据价值为核心研究目标的学科,都是数据科学。的确,现在有很多专业都涉及到数据科学的知识和应用,例如生物、医学、环保、金融、社会学等等。以医学为例,一张肺部多发毛玻璃结节的胸片是个人信息,一百张肺部多发毛玻璃结节的胸片数据可以用统计学的方法研究,一百万张肺部多发毛玻璃结节的胸片,可以使用运用机器学习的算法来分析。现在的应用不是手动编码带有特定指令设定的软件程序来完成读懂胸片的任务,而是使用大量的数据和算法来「训练」机器,赋予它学习如何执行任务的能力。将大数据驱动的人工智能应用于肺癌早期诊断中,让计算机自动、快速、准确的从病人的肺部 CT 扫描序列中发现疑似结节位置,则可以降低肺癌早期筛查的成本,提高检测速度和检测的准确率。这是数据科学和人工智能应用的典型例子,也是数据科学家与人工智能专家结合医学知识解决重大疾病问题的例子。对于将要学习不同专业的同学来说,培养数据的思维也很重要,站在更高的角度,也就是数据科学的角度,去看待不同的专业领域和专业知识。培养运用数据科学的思维解决问题的能力。未来各行各业都会涌现出专有领域的数据科学家。现在企业中不少工作岗位都叫数据科学家,然而即使是在同一家企业,同一个数据科学家团队工作,每个小组做得方向和工作内容也都不一样。 所以可以说:我们不一样,因为数据科学有其应用的独特方法与技术;我们也一样,对数据科学思维和算法的运用,都是为了提高效率,解决问题,让数据产生价值。 问题二:“数据科学”需要什么样的技能?简而言之,数据科学对数学、统计学、计算机、运筹优化等基础理论的要求较高。没有扎实的基础理论训练,将来很难胜任数据科学的工作,学生必须在本科学习时期获得了扎实的基础功底后,长期方有实力发力。我们采访了部分知名数据科学企业的人力资源人士,他们认为:对于本科学历的同学,用人部门或者团队需要花费大量人力、物力、精力来培养,如果学生基础好,素质高,团队也有时间和机会培养,那本科学历的同学还是有一定的机会的。言下之意,偏爱高学历。由于数据科学领域技术和应用的发展非常快,数据科学家需要在工作中不断学习,如果没有强大的学习能力,将会遇到巨大挑战和困难。同时,这也对高校培养符合市场需求的人才提出了新要求。是不是计算机专业的同学会更有优势?答案是那也未必,除了计算机相关知识,还需要有统计学、应用数学、运筹学的基础功底。本文以下的内容由两部分组成,一方面来自知名教授曾经的经典访谈、一方面来自亲爱的数据团队的专访,尽力呈现“成为数据科学家应该接受什么样的教育?”这一问题的真实答案。迈克尔·乔丹:计算机科学和计算思维的重要性2015年有一项计算机科学领域的排名,迈克尔·乔丹教授影响力名列第一,同时乔丹教授门下人工智能英雄辈出,如原百度首席科学家吴恩达、斯坦福大学计算机系助理教授、斯坦福人工智能实验室成员Percy Liang等。回顾教授在中国的一篇演讲,我们来看一下大师是如何理解计算机科学和计算思维的重要性。计算思维来自于计算机科学,是一种思想,是关于思考特定问题的抽象化、模块化、扩展化和稳健化等方法,绝不仅仅是如何编程。计算机专业的学生在这些方面都会接受很好的训练,但被大家忽视的,也是特别重要的推理思维。推理思维不是新思想,它是有几百年发展历史,它是统计学中最核心的东西。推理思维强调的是——拿到数据。我们要思考数据是从哪里来的,背后的真实世界是怎样的,数据如何从真实世界中采集来的,会不会有采样偏差,等等。遗憾的是,计算科学和统计学长久以来独立发展,直到如今的大数据时代,两个学科的交叉才使得这两门学科遇到了真正的机遇,同时也带来了挑战。哈佛大学统计学刘军教授:扎实受训的数学功底+解决实际问题的能力刘军教授于1985年毕业于北京大学数学系,后赴美国留学,并于1991年获统计学博士学位。2000年起任哈佛大学统计学系教授,并兼任生物统计学系教授。我们找到了他曾经的一段英文采访,第一次翻译成中文。刘军教授问:近年来,越来越多的中国学生对统计数据感兴趣,您对他们有什么特别的建议吗?刘军教授:我在斯坦福大学见过很多非常有才华的学生。学生从中国顶尖大学获得了本科教育会在数学方面很强,但是往往在批判思维、写作、驱动力和创造力方面都比较薄弱。大多数中国学生一生都在被动的接受知识,按照老师的要求做。有优秀的老师领路很好,但是会导致独立思考的能力、创造力、个性发展的不够。这样会导致他们在从学生到研究者的转身过程中面临巨大的挑战。一般来说,人们倾向于认为:数学好的人在批判性思维方面必须与生俱来的强壮。然而,我发现这个假设与现实相去甚远:许多学生的数学能力好,但是解决现实问题的能力很弱,究其原因,是训练不足。相反,我发现那些擅长编程或工程的学生在关键问题和解决问题方面往往非常强大,如果这方面能力弱了,他们将在调试程序方面碰钉子。但是,这些工程专业的学生缺乏抽象和概括的经验。因此,我真心希望中国未来的统计学的学生能够拥有扎实受训的数学功底和解决实际问题的能力,比如编程和批判性思维。百度商业智能实验室主任熊辉:我挑人就十个字高考毕业需要选专业的同学很多都有这样的疑问:选择专业到底是应该从兴趣出发还是从就业出发?百度商业智能实验室主任熊辉博士这样告诉我们,对学科的兴趣是成为一个行业顶级人才首要要素。熊辉主任也是美国罗格斯-新泽西州立大学终身正教授、博士生导师。他常年带领科学家团队活跃在数据科学前沿,具有一流的实战经验。同时他在育人方面也是一位“高产”的学者,在美国已经培养出七位教授。他在回答如何成为一名优秀的数据科学和人工智能的专家方面很有发言权。熊辉教授在O'Reilly人工智能大会2018北京站,接受了我们的采访,分享了他选拔人才的十个字的心诀:“第一:兴趣。在人生和工作最困难和最黑暗的时候,往往是兴趣和热情支撑着信念,驱动自己突破极限。第二:态度。人生发展一定会有撞墙的时候,所以乐观和阳光以及能够做好小事的态度非常重要。难的不是在顺境中前进,而在逆境中不迷失自我。既能行的了顺水舟,也能开得了逆水船,所以做人做事的态度很重要。第三:基础。我的选人顺序,第三才是基础,数据科学这行是有护城河的,对数学有着很高的要求,数学基础要好。但是满足我对数学基础要求的学生就非常多了。我不会要求说你必须是前三名。不是说你必须是名校的。只要你数学基础好,我觉得就有培养的前途,主要是数学基础。第四:习惯。优秀的数据科学家一定要有良好的习惯。做人做事的习惯、生活的习惯。有一个好的习惯,才不容易犯错,可以保证走得更长远。 活得长的人,成功的机会多。健康的身体需要好的生活习惯。第五:认真。若想成才,必须认真。做一件事情,就要认认真真地把这一件事情做好,认真是把握机会的钥匙。能做到这十个字的基本上都会成才。”北京大学王汉生教授:【计算机】+【分析方法】+【经济管理基础】+【行业实践】北京大学光华管理学院商务统计与经济计量系主任王汉生教授,也是北大光华商业分析(Business Analytics,)硕士项目的负责人。王教授说,该硕士项目在要求中明确提出“既欢迎有商科类专业背景的,擅长数理分析的同学申请,也特别欢迎有计算机或工程类专业背景、编程能力很强的同学申请”。他在采访中提到,对商业分析项目的定位要素是:【计算机】+【分析方法】+【经济管理基础】+【行业实践】。这也反映了数据科学家确实需要两大类的知识和和技能,一方面是基础理论,很多理工科的同学通过刻苦的学习都可以具备,另一方面是来自应用领域的知识,也有人称为业务知识。需要结合不同行业的业务实践。专业数量激增,选择普通院校新成立的数据科学专业是否有风险?“数据科学与大数据技术”本科新专业,批次情况如下:(教育部通知,含学校名单:http://www.moe.gov.cn/srcsite/A08/moe_1034/s4930/201803/t20180321_330874.html)显而易见的数量激增。近年来,各行各业对数据科学家对求贤若渴,在人才颇为紧张的前提下,这么多学校获批专业,到哪里去找老师成了难题。而且从院校情况来看,全国开设大数据本科专业的高校中,985和211仅仅占13%。好学校好专业竞争激烈也反映在数据科学专业。业内不愿透露姓名的专家持有更有激烈的观点认为,“第二批获批“数据科学与大数据技术”的35所高校中,大半高校不适合以培养数据科学研究型人才为核心目标。因为缺乏相应的积累和能力”。那么第三批的情况就更不乐观了。不过,第三批获批高校数量众多,本来就很难用标准来衡量。不难看出,普通高校一窝蜂的申请数据科学与大数据技术专业是追赶潮流的行为。正如前文所说,计算机技术、应用数学与统计学的基础功底非常重要,如果学校在这几个专业方向上并无优势,赶潮流的成立新专业,在人才培养、教师水平提升方面都面临严峻考验。建议:学生在选择专业时,往往选择有一定发展年限,在教学传统已有积累、学习氛围已养成、教学特色已具备的专业是比较稳妥的。数据科学与大数据技术在当下火爆,而且还在不断发展,几年后对人才的要求是否会有变化,也增加了选择“数据科学与大数据技术专业”不确定的风险。但是,可以肯定的是数据科学在中国的发展会越来越落地,越来越有用武之地,只是人才培养的经验,才刚刚起步。尤为惹人注意的现象是,很多人转行数据科学,让市场上鱼龙混杂的培训赚到了钱,很少有机构能够公开真实的培训课程完成率,夸大宣传,硬说自己口碑好。师资也往往来自于知名企业的技术人员。企业确实拥有数据可以应用,并创造价值的场景。但是正如日本教育学家佐藤学所说的“世界上没有比教师更难的工作了”,教学是一个要求非常高的工作,会不一定等于能教。可以这样说,培训从根本上解决不了一个学习曲线极为陡峭的学科对人才的需求,往往是花钱解决焦虑问题。攀登数据科学的奥林匹斯山,除了登山素有的高难度,缺少好的登山向导也是根本性困难之一。总而言之,攻城先下护城河,数据科学人才发展绝不能错过打基础的黄金时间,专业选择实需谨慎。亲爱的数据出品:谭婧编辑:张卓婧、崔颖涵美编:陈泓宇
本文最初发表在 Towards Data Science 博客,经原作者 Kurtis Pykes 授权,InfoQ 中文站翻译并分享。很多人会问这样的问题:没有学位,我就当不了数据科学家吗?在我看来,这个问题的简单答案是:No! 在数据领域工作的人有很多,但却没有学历证书来证明他们的角色……我就是其中之一。但有趣的是,随着时间的流逝,我曾经所坚持的学士学位、硕士学位和博士学位在数据科学家岗位很重要的立场,逐渐土崩瓦解。尽管我们看到了科技领域最杰出的几位成功者,其中很多人都辍学了,包括马克·扎克伯格、比尔·盖茨和史蒂夫·乔布斯等等。但我还是相信,在某种程度上,关注一个人的实际工作经验会超过他们所受的教育。数据科学并不关心你所学的专业或是否获得学位,重要的是你如何处理数据。但我并不是建议所有想要进入数据科学领域的大学生都应该退学。攻读学位有许多好处,例如,通常来讲,大学毕业的人基本上一生赚的钱比未上过大学的人要多,同时,你也能学到一些学科所需要具备的基本技能,如果你选择了技术学位(科学、技术、工程、数学),你将在数据科学的一个关键领域拥有深厚的基础。相反,如果你并没有好好学习,而是把上学的时间用来拓展人脉网,这会为你毕业后的发展打下良好的基础。实质上,一个数据科学家需要有很好的编程、数学、统计和概率方面的知识,以及对商业领域的理解。假如你能有效地证明自己具有这些能力,那么你的综合实力就要超过这些证书所赋予你的价值。所以,为了更有效地找到你的第一份数据科学家的工作,你应该考虑培养以下能力:编程技能在编程领域,最常用的数据科学编程语言是 Python 和 R,要想开始研究数据,你至少要学会一种。在对 Python 和 R 两种语言的选择上,数据科学家们通常分成了两派,而有一些数据科学家们也不会对另一种语言极为排斥。我对两者都进行了取样,发现 Python 更容易学习,效率也更高。它的用途也比数据科学更广泛,而且如果你想在其他领域发展自己的技能,它将对你有所帮助。数学、统计与概率简单地说“这张图片有可能是猫”并不像“这张图片有 80% 的几率是猫”那样令人信服。这个例子很乏味,但是你应该使用统计学和概率来分析和解释所有你提供的数据。此外,模型数据的许多算法都要求对数学中的不同主题有很好的理解,如线性代数和微积分(以及统计学和概率)。这可以帮助你了解和调试你的算法,让你的算法能够很好地解释审计中出现的问题或者客户为什么拒绝贷款。项目组合数据被高度评价为“新石油”,地球上的每一个人都在产生大量的数据,这种观点对于思考数据科学非常重要。数据科学家必须从正在产生的大量复杂数据中提取信息,并重点强调哪些信息对业务有帮助,因此我们领域专家(这可以是数据科学家,也可以是团队中的某个人)。在任何情况下,你都必须能够证明你能够完成你所说的所有任务,因此,拥有一个令人信服的项目组合对于研究各种问题以及这些问题的解决方案很有帮助。人脉网络在数据科学领域,“你的人脉就是你的净资产”这句老话比以往更重要。说到底,这是一个全新的领域,没有多少衡量标准来区分优秀的从业者,除非你雇佣并发现他们,但这就意味着巨大的投资风险。所以当你想要获得第一份数据科学的工作时,找个人来担保是很有用的。与此同时,将自己融入到数据科学文化中,这也是一个很好的方式,可以发展和学习数据科学的新知识,同时也可以让你在找到第一份工作的时候感受到数据科学的魅力。总结当你决定寻找一名数据科学家时,我个人认为,你是否有学位并不重要。最终,招聘公司认为他们有一个包括数据科学相关的问题,他们需要一位数据高手帮助他们深入研究这个问题,这样公司才能发展壮大——但是公司并没有说需要获得学位。但是,要想让数据科学家的工作更有效率,你必须具备一些必要的技能,好消息是,现在互联网让你可以在网上学习很多数据科学家所需要具备的技能,而且不必负担债务。作者介绍:Kurtis Pykes,痴迷于数据科学、人工智能和商业技术应用。原文链接:https://towardsdatascience.com/do-i-need-a-degree-to-land-a-job-in-data-science-3e50b9a1a5e9延伸阅读:高达200个应用,近8000个实例的工行MySQL转型实践-InfoQ关注我并转发此篇文章,即可获得学习资料~若想了解更多,也可移步InfoQ官网,获取InfoQ最新资讯~
2019年高考马上就要来临!首先来讲一下写这篇文章的原因吧。不久前听邻居的一位妈妈讲,她把自己女儿送到了澳大利亚去学大数据专业,说毕业以后就业工资非常可观,年薪起码20万。说话的时候自带骄傲的神情,大家自己脑补一下。小编内心想,这位妈妈可真是时尚,一大把年纪了连大数据都懂,真懂行情!那今天小编带大家简单了解一下数据科学与大数据技术专业吧。1. 数据科学与数据技术到底是什么样一个专业呢?数据科学是随着现代信息技术发展而产生的一门新型交叉学科。简单来说,它应该是计算机与统计学这两门主要学科的交叉。但是,所涉及到的知识领域还有很多,比如说你需要有数学学科背景,还涉及到人工智能化技术、机器学习、可视化技术、信号处理、概率模型理论技术、不确定性建模等这些学科领域的知识。从这个角度来看,数据科学与大数据技术人才是高级复合型人才,他与传统的计算机专业还不太一样,单纯会计算机相关知识还不够,还需要具备多个领域的知识。2. 学数据科学和大数据技术专业的人才,未来就业去向是哪里呢?不知道大家有没有听过“数据科学家”这个称号。数据科学家就是数据科学与大数据技术专业毕业后能够从事的一大职业,听起来很高大上有没有。这类的工作职位主要是以高级建模为主,然后会针对实际的问题来设计解决方案。比如说亚马逊物流管理、各种定价系统以及金融行业的防欺诈系统。这些都需要比较精深的领域知识,也就只有从事数据科学的数据科学家才有能力做到。数据科学与大数据技术专业毕业生还可以去计算机和互联网领域从事数据分析、系统分析、大数据工程应用开发;也可以成为信息分析师、商业分析师、数据库协调员、开发机器学习系统等等,并且用它来解决实际的问题。像开发机器学习系统这一类,技术含量就比其他分析师之类的要高了,需要你做出来数据产品,而且一般要解决实际的问题才是好的数据产品。总结一句话,哪里有大数据,哪里就需要数据科学人才,通过数据分析可以预测未来、通过数据分析可以了解历史、通过数据分析可以掌握现在,最重要的通过数据分析,可以找出最佳的解决问题的思路和途径,优化结果。3. 工作职位听起来就很高大上,就业情况和工资水平如何?就业情况可以说是相当好。为什么呢?近十年来,我国的大数据市场规模增速从11年到14年的年均20%到16年的45%,增速飞快。在2020年,我国大数据的规模预计将会8000亿元,很有可能成为世界第一大数据资源国。有相关报告显示,我国大数据人才目前处于非常短缺的情况。未来三年到五年之内,对于大数据人才的需求达到150万左右。但是人才的供给数量却只有30-40万左右的小数目,与数据人才的缺口相比还真是差的很远。可以看到,数据分析师的市场需求量是现有人才量的大好几倍,这就表明,该专业人才供给属于极度供不应求的状态,就业形势是非常乐观的,工资也是非常高的。比如在澳大利亚,数据科学家的年平均工资大概在9万澳元,折合人民币大概45万,大家参考一下,虽然严格来说,你还需要考虑澳大利亚的生活成本等等,不过总体来说这个工资水平很高了。在国内的话,暂时还没有权威数据。有相关数据表明,数据分析师的平均月工资为接近1万元,可以说是非常高了。而且在北、上、广、深等大城市,数据分析师等需求量是相当大的。4. 国内有哪些学校开设了数据科学与大数据技术专业?像北京大学、中南大学和对外经贸大学是首批开设数据科学与大数据技术专业的院校,资历也比较深。其中,中南大学在18年的时候,该专业排在了全国第一;次之就是浙江财经大学,再然后是广西科技大学。这三所是首批开设该专业的院校,专业发展较为成熟,很值得大家报考。其他也有一些学校在数据科学方面做的比较好的,比如人大、电子科技大、北邮、北京信息科技大、北师、华师、上海财经、同济大学、南开大学等等。
选自fast.ai作者:Rachel Thomas机器之心编译参与:侯韵楚、hustcxy、王宇欣、微胖有时一些粉丝会给我发邮件,想让我在数据科学方面给出针对性的指导,所以我写了这个数据科学建议专栏。若你在数据科学方面存在困惑,请发邮件至 rachel@fast.ai,但请简洁清楚地提出疑问。这个建议专栏的前几部分包括:如何组建数据科学与工程团队(how should you structure your data science and engineering teams),以及给对深度学习感兴趣的学生提出建议(advice to a student interested in deep learning)。这个问题中,我整合了几个编程水平不高的人发来邮件,他们住在湾区之外,并有意发展成为数据科学家。问题如下:Q1:我是一家大银行的金融分析师,目前正从软件工程师向技术工程师转型,并且对机器学习感兴趣,我有幸拜读了你的 The Diversity Crisis in AI 这篇文章。请问我是否需要读个人工智能硕士或博士学位?Q2:这是我攻读理论数学博士学位的第六年,不久将会毕业。我对数据科学真感兴趣,也想知道自己是不是想在这个领域里找份工作,请问我能或者我该如何准备,才能具备公司所需求的技能呢?目前我正在读书,想找一些我能做的小项目。您能告诉我在哪里能找到招聘者感兴趣的小项目吗?Q3:我拥有 STEM 的研究生学位,曾既是研究员又是教师,目前处于职业过渡期,寻找可能会同时需要分析技术和教学能力的职业。我更加擅长科学方面,而非软件方面。如今的互联网能够颠覆我们的认知能够将孤立的信息进行共享。请问你能推荐一些关于教师用得起的编程课程与 workshops 吗?还有,你认为什么编码语言或技能最有助于重点关注发展呢?答:我认为自己的背景很「不传统」。乍看之下,我的经历似乎是十分标准的数据科学教育:高中学习了两年 C ++,大学开始学习计算机科学(数学专业)并获得了与概率相关的博士学位,而后成为了一名「宽客」。但我的计算机科学课程大多是理论的,我的数学论文则完全是理论的(一点计算都没有!);这些年来,我使用 C++ 越来越少,而使用 MATLAB 愈加频繁(我这是怎么了?!不知为什么,我甚至发现自己使用 MATLAB 编写 web scrapers……)。我的大学教育教会了我如何证明一个算法是 NP 完成的或是图灵可计算的,但在测试、版本控制、网络应用程序与网络如何运作方面完全空白。我任职的公司主要使用在技术行业不被使用的专有软件/语言。在能源交易公司做过两年「宽客」后,我意识到我最喜欢的部分是编程和处理数据。我对大公司官僚制度,以及使用过时的专有软件工具这样的现状很不满意;我想有所改变,并决定参加 2012 年 2 月的数据科学会议 Strata,以对湾区的数据科学有更多了解。我深深地陷进去了——对数据的巨大热情、最令我兴奋的工具(以及我以前从未听说过的其他工具)、那些从学术界或成熟的公司中抽身而退,在初创公司为理想而奋斗的人的故事……它是如此独树一帜,与我曾习惯的一切截然不同。Strata 之后,我在旧金山待了几天,到初创公司面试,并与一些搬到 SF 的浅交一同喝咖啡,他们每个人都对我很有帮助,并对四桶咖啡馆非常痴狂(几乎每个人都建议在那里!)。我曾很有名,但实际上转换到科技领域让我完全迷失了……当第一次和技术人员进行如此多的对话和采访时,我时常觉得他们在讲另一种语言。我在德克萨斯长大,以不知科技领域工作为何物的状态,在宾夕法尼亚和北卡罗来纳度过了我的 20 多岁。我从未修过统计课程,只是觉得概率便是测量空间的真实分析;我也并不了解新创公司和科技公司如何工作。第一次到初创公司面试时,一位面试官夸耀了公司在开始快速扩张/招聘之前如何短暂地实现盈利。我震惊地答道「你的意思是这家公司不盈利!!」(是的,我实际上以震惊的语调大声地喊了出来),记忆中场面一度陷入尴尬。在另一次面试中,我对「印象(impression)」(展示网络广告时)的概念感到困惑,仅仅理解它的逻辑就花了我一段时间。我在这里已经五年了,有些事是当我开始转变职业时理应知道的:我是白人,是美国公民,在研究生学校获得了大笔奖学金,没有学生债务,并且我是单身,没有后代。而没有这些特权的人在决定转变职业时,道路将更加艰难。尽管我的轶事令人将信将疑,但我还是希望其中一些建议能对你有所帮助。做好走向数据科学的准备1. 最重要的是:无论你想要在目前的工作中学到什么,都要找到方法。找到一个涉及更多编码/数据分析且对您的雇主有帮助的项目。尝试使任何无聊的任务自动化。即使这个过程需要 5 倍的时间(即使这样的任务你只做一次!),但你正是通过这样来学习。2. 分析您拥有的任何数据:比如消费前的研究数据(即决定要购买哪种微波炉),个人健身追踪器的数据,烹饪食谱的营养数据,为孩子调查的学前教育数据。把它变成一个小型的数据分析项目,并写到博客中。例如如果你是研究生,你可以分析所教学生的年级数据。3. 学习最重要的数据科学软件工具:Python's data science stack(pandas / numpy / scipy)是最有用的技术(阅读本书!),紧随其后的是 SQL。在学习其他语言之前我会专注于学习 Python 和 SQL。Python 被广泛使用且非常灵活。如果你决定参与到更多的软件开发工作,或者全面进入机器学习,你会有优势。4. 使用 Kaggle。做教程,参加论坛,参加比赛(不要担心你处于什么水平- 只是专注于每天做得更好一点)。这是学习实用机器技能的最好方法。5. 搜索您所在地区的数据科学和技术会议。随着数据科学在过去几年的激增,如今在全球有各种会议。例如,Google 最近在加利福尼亚州山景城举办了一次 TensorFlow Dev 峰会,但有全世界观众一起观看直播(包括尼日利亚的阿布贾,印度的哥印拜陀和摩洛哥的拉巴特)。在线课程在线课程是一个了不起的资源。你可以在家里舒适地跟随世界上最好的数据科学家学习。通常作业是学习最多的地方,所以不要跳过它们!这里有几个我最喜欢的课程:Andrew Ng 的经典机器学习公开课(虽然没有在 Octave / MATLAB 上花太多时间,但他把算法解释地非常完美),或许用 Python 完成这项工作更好快速实习深度学习课程。透露:我协助开设了这门课程,我们得到了许多学生的积极反馈。其中唯一的先决条件是一年的编码经验。Udacity 的数据科学系列。Udacity 的 Web 开发课程。如果想成为一个数据科学家在技术上不需要了解这些,但成为一个更好的软件开发人员可以使你成为一个更好的数据科学家,了解如何构建自己的网络应用程序非常有用。上述强调的问题之一是,在线可用的信息、教程和课程的数量或许巨大的,最大的风险之一是不能持之以恒,不能完成或坚持足够长的时间来学习它。重要的是找到一个「足够好」的课程或项目,然后坚持下去。找到或组建一个见面团队来一起学完在线课程或许对解决这个问题有帮助。在线课程对获取知识非常有用(做完作业非常重要,这是你学习的方式)。不过,我还没发现获得证书有啥好处。(虽然我知道这是一个新增长的领域)。因为之前雇佣数据科学家时,我面试过很多求职者,而且自己也有这方面的求职经验,都是经验之谈。新闻来源推特是一个寻找感兴趣文章和机会的有用渠道。例如,我的合作者 Jeremy Howard 提供了超过 1,000 个他最喜欢的机器学习论文和博客帖子的链接(注意:您需要登录推特才能阅读此链接)。虽然一个捷径是在链接中寻找喜欢推文的作者,直接关注他们,但是,你还是需要一些时间来确定去跟随谁(跟进、终止和搜索可能会一直发生)。请在感兴趣的公司中查找数据科学家。查找您使用或感兴趣的库和工具的作者。当您找到喜欢的教程或博客帖子时,查找作者。然后查找这些人转发了谁。如果你还不了解推特,我认为把推特作为一种收藏链接的渠道可能会对你有帮助。我会在推特上转发可能会在几个月内参考用到的文章或教程。The machine learning subreddit 是近期新闻的一个很大来源。刚开始你可能会发现很多没有看过,但在几个月后,你认出的会越来越多。注册时事通讯(例如 Import AI 简报和 WildML 新闻)非常有帮助搬到到 Bay Area尽所有可能搬到到 Bay Area!我意识到,这对许多人是不可能的(特别是如果你有孩子或者有签证/合法居留的问题)。这里有非常多的数据科学(data science)方面的线下见面会(meet-ups),会议和研讨会。还有一个由其他聪明,有抱负,渴望学习的数据科学家组成的社区。我甚至弄不清在远程学习中哪些东西对我是最有用的。虽然我来这里之前已经开始自学机器学习(machine learning),但是,来到湾区还是快速地提升了我的学习进程。对我来说,在旧金山的第一年,这段时间学习非常紧张:我参加了非常多的见面会(meetup),完成了几个在线学习课程,参加了许多研讨会和会议,从数据公司的工作中学到了很多,最重要的是我遇到许多可以请教问题的人。我完全低估了与那些正在构建我最感兴趣工具和技术的人进行定期交流是多么令人惊奇的一件事。我周围是那些热爱学习并正在推动那些可能成为现实的尖端技术的人。我前面提到的 TensorFlow Dev Summit?非常幸运,我可以到会议现场,而且最赞的是在那里遇到的人。搬到湾区的一个好办法是找一份非理想职业(not-your-dream-job); 比如,找一个地方,周围都是你可以从他们那里学到东西的人,即使这份工作你并不感兴趣。2012 年初,我决定转行,当时,Insight 以及其他数据科学训练营还不存在。我申请了几个「理想工作」,然后被拒。事后看来,这是因为我缺乏一些必要的技能,不知道如何正确地推销自己,求职搜索也做得比较简单。2012 年 3 月,一家让我很兴奋的创业公司的分析师岗位录用了我,这个岗位给了我希望,我和公司达成非正式协议:以后能够转到正式的数据科学岗位上。总的来说,这是一个不错的选择。它让我很快地搬到了旧金山,我所在的公司在很多方面做的非常棒(有一个阅读小组,研读 Bishop 的 Pattern Recognition,还参加了一次为与 Trevor Hastie 和 Jerome Friedman 见面的实地考察旅行),我的经理支持我做更多超出我职务范围的工程密集型(engineering-intensive)项目。一年之后,我得到了我的梦想工作:在一家有着吸引人的数据集创业公司担任数据科学家/软件工程师。该领域还有一些好的训练营,它们通常提供机会让你与有趣的人和数据科学领域的公司联系。Insight Data Science 是一个 7 周的,免费的,高强度的训练营,专门针对 STEM 领域的博士毕业生。潜在的缺点:因为只有 7 周,其中的一部分人专注人际社交和求职,我认为这主要是为了那些已经掌握了他们需要的技能的人。并且,竞争非常激烈。数据科学训练营,比如 Galvanize 或者 Metis。优点:这些是 12 周的深入体验,它们提供了系统安排和人际交往的机会。缺点:非常昂贵。一些需要考虑的因素:你的背景距离你所需的有多远?也就是说,如果你只有很少的编程经历,你可能需要做一些这样的事情,但是,如果你正在从一个密切相关的领域过渡,那就没必要。另外,你有独立自主学习的动力吗?如果你很难做到这一点,训练营的负责制和系统的安排可能会帮到你。在决定是否参加训练营时有许多因素。其中最主要的是你需要多少组织性和外部的动力。在网上有许多很好的可用资源。你有多少的纪律性?请注意,接受你所需要的最好的学习非常重要。我发现在线课程的激励并且布置作业确实对我有用,并且我曾经因为其比完成一个独立的小项目更容易而感到尴尬。现在,我已经完全接受了它并尝试做好。其他要问的问题:你需要学习多少,你自己能够学地多快?如果学得很快,训练营可能会加速你学习的进程。我认为训练营的另一个闪光点在于,教你如何将一些不同的工具和技术结合在一起。你也可以在这没有工作。这需要一些东西,包括:充裕的储蓄,美国的合法居留身份,没有孩子,所以对很多人来说这不能是一个选择。然而,如果你能够做到这些(即美国永久居民,有足够的资金),这会是一个很好的选择。在技术方面的求职会是全职的工作,因为数学科学和工程采访(engineering interviews)需要大量的学习来准备,并且需要短时的回家完成的挑战(take-home challenges)。事后看来,当我做全职工作和求职时,我经常会做出仓促的求职,并且这导致我做出一些次优的决定。你一定会找到很多方法充实你的时间,学习采访,为小项目码代码,参加研讨会和研究组。另外,当我转行到技术的时候,让我惊讶的两件事情是,人们更换工作的频率,以及在工作期间做学习新事物和旅行花费时间是多么正常(因此,没有理由担心你的简历,只要你在那段时间中对你正在学习的东西交上了一份满意的答卷)。高能预警:5 年前,当我准备搬到湾区时,我并没意识到这个地方的科技领域有多性别歧视、种族主义、年龄歧视、道德败坏(尽管它宏伟地声称要创造一个更美好的未来)。几年后,我变得非常灰心,以至于开始考虑完全离开了科技行业。背叛,无情和残忍的故事比比皆是:比如,我亲近的人被他的同事利用其家庭紧急医疗事故牟利,我的许多朋友和亲人也有类似可怕经历。然而,这个充满满怀激情、让人着迷的人、能让人接触到前沿技术的社区还是让我留了下来,而且给我选择的机会,我还是会选择再次来这里。我现在感觉非常幸运能和 fast.ai 一起研究那些我认为最有趣也会产生最大影响力的问题。对其他问题的回答我需要硕士或者博士的学历才能从事人工智能?我坚信,答案是否定的,并且我正在努力使它变得更像一个现实,而不是已经是。事实上,在处理实际业务相关难题时,这些博士并不是那么有优势,因为这不是他们训练的目的。学术界专注于推动该领域的理论界限,背后推动力就是哪些研究可以发在顶级期刊上(这与创造一个可行的业务非常不同!)。阅读更多关于 fast.ai 的教育理念点击这里(http://www.fast.ai/2016/10/08/teaching-philosophy/),查看我们的免费在线课程 Practical Deep Learning for Coders。学习 Python 之后,我应该学习 Ruby 吗?对一个有抱负的数据科学家来说,没有理由学习 Ruby。它与 Python 类似,并且不会教你新的概念(学习函数式语言或低级语言的方式),也算不上一个好的数据科学生态系统(data science eco-system)。我在哪里可以找到引起雇主兴趣的小项目?我认为可以在网上找到随机数据集,但是,我猜雇主一定想看我是如何处理一个真实的情况?不要觉得你的小项目需要是完全独特的,或者需要涉及一个独特或不寻常的数据集。使用你从 Kaggle 获得的数据集就不错。如果你的项目没有取得新成果,不要担心。当创建小项目,博文,或者教程时,将你的受众视为落后于你的人,他们是你有优势可以帮助的人。你可能担心某个领域的资深人员不会对某个项目或者博文感兴趣,或者其他人也许已经做过类似的事情。没关系!这只是为了让你找到工作。
一、分析与数据科学的未来通过对IADSS联合创始人Usama Fayyad博士在2019年波士顿ODSC的主题演讲后的采访,了解当前和未来的数据科学问题以及可能的解决方案。数据技术对企业期望有什么影响?Usama Fayyad博士表示:我们所看到的最大的变化是一股巨大的数字化浪潮。我认为,这是我最关心的,在很多数字化的过程中,或者说所谓的数字转型的努力中,人们开始把很多手工工作数字化,使它们更准确,减少重复,无趣,更快。所有那些好东西。但数据最终成为了事后诸葛亮。结果是他们创造了我们所说的“即时技术债务”因为你现在已经建立了数字化的机制而你忘记了诸如“我如何获取正确的数据?”“我如何表示这些数据?”“我如何存储这些数据?”“我如何在正确的时间检索它?”和“什么级别的数据?”人类通常会在图和摘要的层次上消费数据,而像机器学习算法这样的机器需要每一个小事务的细节和它周围的东西。这对于人类来说是完全不可消耗的但是对于学习算法来说是必要的。所以,对我来说,现在的情况是人们现在反思说,好吧,如果我真的做适当的数字化,我想确保我放在正确的大脑和正确的情报来设计,这样当我获取正确的数据、管理数据正确,最重要的是,使算法非常挑剔的机器学习算法,只需要特定格式的数据,完全崩溃,如果不是这个格式,能够消费它。这就是我认为现在正在发生的变化,变得更好,尤其是在大数据方面,这使得处理不同类型的数据变得更容易。详细原文:https://www.kdnuggets.com/2019/09/future-analytics-data-science.html二、使用DC / OS加速企业中的数据科学遵循此使用Tensorflow的分步教程,将DC / OS数据科学引擎设置为PaaS,以启用分布式多节点,多GPU模型训练。1、为什么选择DC / OS数据科学引擎?2、AWS上的数据科学引擎3、自动化DC / OS数据科学引擎设置详细原文:https://www.kdnuggets.com/2019/10/dc-os-accelerate-data-science-enterprise.html三、最新SQL数据分析指南据计算,到2020年,地球上每秒钟将为每个人生成1.7 MB的数据,数据将成为我们数字时代的新石油。这催生了许多数据管理和分析数据等相关专业。其中许多职业要求是精通数据库中的数据管理。本文则是目前流行的SQL数据分析指南。来源:网络大数据公众号