欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
山东大学成立数据科学研究院 打造数据人才培养高地六号门

山东大学成立数据科学研究院 打造数据人才培养高地

7月12日,山东大学数据科学研究院在济南正式成立。 赵晓 摄中新网济南7月12日电 (赵晓)山东大学数据科学研究院12日在济南正式成立,将围绕经济社会管理、工程技术、医疗卫生等领域开展科学研究,建设数据人才培养高地。图为教育部科技司副司长高润生在山东大学数据科学研究院成立大会上致辞。 赵晓 摄记者当天在山东大学数据科学研究院成立大会上获悉,该研究院将以机器学习与数据科学基础理论、计算社会科学、健康大数据和工程大数据等为研究方向,下设大数据理论研究中心、健康医疗大数据研究中心、计算社会科学研究中心和工程大数据研究中心。山东大学数据科学研究院院长刘建亚介绍说,该研究院是校属独立实体性科研机构,将综合运用数学、统计学、计算机科学、信息科学等学科进行前沿研究。“既注重数学科学研究,也立足于理学、工学、医学等领域的实际应用,培养数据科学专业高端人才。”“当前,人类社会步入数字化时代,数字经济风起云涌。中国大数据产业初建规模,具有良好发展前景。”教育部科技司副司长高润生在大会致辞中表示,山东大学成立数据科学研究院是高校科技体制改革的需要,应充分整合校内科研资源,瞄准国家战略和区域发展的大数据需求,加强数学理论、数据科学和数字经济一体化研究,持续催生新业态和新产业,支撑经济高质量发展。当天,山东大学数据科学研究院内设的健康医疗大数据研究中心同时挂牌为“山东大学健康医疗大数据研究院”和“山东省健康医疗大数据研究院”。图为山东大学校长樊丽明在大会上发言。 赵晓 摄国家卫生健康委员会统计信息中心主任张学高指出,大数据是信息化时代的战略资源,健康医疗大数据的发展目前正面临数据融合共享程度低、医疗机构数据围墙难以打破、复合型人才匮乏等挑战。山东省、济南市已分别入选国家健康医疗大数据中心的试点省市,山东大学健康医疗大数据研究院的成立将汇集政府、企业、研究机构、医疗机构等多方力量,打造政产学研用为一体的健康医疗大数据系统,推进“互联网+医疗健康”发展。山东大学数据科学研究院的内设机构健康医疗大数据研究中心正式挂牌“山东大学健康医疗大数据研究院”。 赵晓 摄据山东大学校长樊丽明介绍,数学学科是山东大学传统优势学科,为发展数据科学等新兴交叉学科奠定基础。数据科学研究院将以数学为基础,围绕经济社会管理、工程技术、医疗卫生等领域的核心问题推进研究。“厚植齐鲁大地,研究院还将加强与地方政府、企业的合作,建设大数据分析共享平台,推动社会服务和成果转化,回应时代需要。”(完)

狠狠爱

山东大学数据科学研究院今天揭牌成立

齐鲁网7月12日讯山东大学数据科学研究院今天正式揭牌成立,为学校直属独立建制的科研机构,下设“大数据理论研究中心”、 “健康医疗大数据研究中心”、“工程大数据研究中心”、“计算社会科学研究中心”,其中,健康医疗大数据研究中心同时挂牌“山东大学健康医疗大数据研究院”。山东大学已将数据科学,确定为重点建设冲击一流的五大优势学科领域之一。山东大学校长樊丽明在讲话中表示,目标是以数学科学为核心,联合控制科学与工程、计算机科学与工程、医学及社会科学等领域,来建设一流的数据科学学术高地。

蹙之乎颐

打造数据人才培养高地 山东大学数据科学研究院揭牌成立

 中国山东网7月13日讯(记者 徐从芬)12日,山东大学数据科学研究院成立大会在中心校区举行。“山东大学数据科学研究院”“山东大学健康医疗大数据研究院”同时揭牌。中国科学院院士张平文、汤涛、王小云,山东大学校长樊丽明、教育部科技司副司长高润生出席会议。高润生在致辞中表示,山东大学成立数据科学研究院是响应国家大数据战略的重要举措,是“双一流”建设发展、高校科技体制机制改革以及有组织协同体系创新的需要。他对研究院定位与未来发展提出建议:要坚持以服务国家战略与区域发展需要为逻辑起点,瞄准世界科技前沿,持续产出一批原创性的重大科技成果;坚持以世界一流学科建设和关键领域核心技术突破为目标,推动多学科交叉平台和协同创新;坚持以体制机制改革和建设科技管理绿色通道为保障,探索新型科研机构建设。樊丽明在致辞中说,山东大学“双一流”建设进入了全面施工阶段,数据科学研究院的成立是学校服务国家战略、回应全球科技热点、捕捉科技革命前沿的全新探索,也是大力推动“数学与数据科学”一流学科建设的重大举措。学校将把数据科学研究院作为“双一流”的重要内容部署和建设:坚持一流标准,主动与国家大数据战略对接,努力建设一流学科、汇聚一流师资、培养一流学生、产出一流成果;坚持服务面向,立足扎根中国、厚植齐鲁的战略定位;坚持创新引领,发展有中国特色的数据科学。樊丽明为研究院学术委员会主任委员、名誉院长、院长颁发聘书。研究院学术委员会主任委员张平文院士、名誉院长汤涛院士对数据科学研究院成立表示祝贺,希望山东大学发挥数学学科的传统优势,把握数据科学发展的时代机遇,以建设世界一流的数据科学学科、培养一流的数据科学人才为目标,努力探索。山东大学副校长、数据科学研究院院长刘建亚表示,要整合学校理、工、医、社会科学等学科资源,引进国内外数据科学杰出人才,将数据科学建设成为注重理论创新、实际应用、人才培养相结合的“顶天立地”的一流学科。山东大学常务副校长王琪珑主持大会。山东省卫生与计划生育委员会副主任马立新、中国数学会副理事长罗懋康教授、宾夕法尼亚大学邬荣领教授,山东大学党委副书记陈向阳、副校长陈子江、总会计师曹升元、副校长李术才参加会议。仪式后,张平文院士、汤涛院士还分别作了题为“计算能力与大数据应用”“大数据与智能教育”的学术报告。山东省立医院、山东大学齐鲁医院、山东大学第二医院等相关单位专家,相关企业代表,山东大学齐鲁医学院党工委、山东大学相关职能部门、相关学院负责人和师生代表参加会议。山东大学数据科学研究院为学校直属独立建制的科研机构。研究院下设“大数据理论研究中心”“健康医疗大数据研究中心”“工程大数据研究中心”“计算社会科学研究中心”。其中,健康医疗大数据研究中心同时挂牌“山东大学健康医疗大数据研究院”。数据科学研究院按照高端性、交叉性、国际性的要求,聚焦国家重大需求,以数学为基础,围绕经济社会管理、工程技术、医疗卫生等领域中的核心问题开展原创性、系统性、引领性的研究,力争建设成为具有世界影响力的数据集成平台、数据科学研发基地、数据价值创造与创新工场和数据人才培养高地。

走虫

入行数据科学一定要有研究生学位吗?

作者 | Jeremie Harris翻译 | MikaCDA 数据分析师原创作品,转载需授权首先我要说的是,我是一名博士肄业生。这个头衔给我带来了所谓的光环,它暗示我在研究生院待过,做过一些学术研究。完成博士学位,意味着你不过是千万个”书呆子”中的一员,而在学了几年后辍学似乎显得你更有个性。人们期待知道你之后会做些什么。他们可能会说,“特斯拉的CEO Elon Musk就选择放弃研究生学位,离开学校去创业,你也可能成为下一个Elon!”那么如果想入行数据科学,学历重要吗?一定需要博士学历或研究生学历吗?在本文中我将分享我的看法。我在数据科学导师制创业公司工作。在工作中,我已经面试过数千位有抱负的数据科学家,当中有些人有博士学位,有些有硕士学位,有些是本科生,也有各个阶段的肄业生。这也让我对数据科学职业有了更深的认识。STEM:科学(Science),技术(Technology),工程(Engineering),数学(Mathematics)这四门学科有许多人会向他人咨询,是否要继续深造读研或读博,而当中很多人对前景没有全面的分析。其实不是所有的学位都适合每个人,原因如下。一、博士学位(这可能会让许多有博士学位的人感到不舒服,在此我提前道歉。)“我看到许多数据科学工作都需要博士学位。我是否要有博士学位才能成为数据科学家呢?“不,并不需要。不要误会我的意思,博士头衔的确会给你带来明显的优势。但也要考虑一些现实因素。如果你的目标是成为数据科学家或机器学习工程师/研究员,那么有博士学位会给你加分不少。但与此同时也要考虑以下两点:1.获得博士学位需要非常长的时间。2.除非你跟着合适的导师,攻读合适的学位,否则你可能学不到任何有价值的东西。针对第1点,在美国或加拿大,获得博士学位需要4年到8年才能完成。平均需要5到6年,具体取决于学校。现在让我们把它放到透视中。在数据科学领域瞬息万变,5年内各种成果层出不穷。要知道,在5年前Spark、XGBoost、jupyter notebook、GloVe、spaCy、TensorFlow、Keras、Pytorch、InceptionNet、ResNet、强化学习等等都还不存在。因此,除非你打算当新技术出现时,花时间自己钻研。否则你会发现学习期间接触到的技术远远跟不上当下的发展。这意味着即使你毕业后,还需要自己学习这些技术。关键在于,数据科学和机器学习的发展非常快,在未来只会发展得更快。因此,当考虑攻读数据科学或机器学习相关领域的博士学位时,你实际上是把赌注都下在你所要学习的领域。你希望在毕业时,该领域还是炙手可热的。而这样的赌注很冒险,而且赌注很高。第2点,思考一下你的导师是谁,为什么他们没有在Google或Facebook工作。当然,有些人更喜欢学术研究,而不是在行业中运用数据科学或机器学习。但值得记住的是,行业顶级的机器学习人才的薪资是非常丰厚的,因此学术界的可能会稍逊一筹。当然,有些地方也有些例外。这主要指的是加拿大的Vector Institute或MILA;麻省理工学院和美国伯克利的数据科学课程等顶级精英项目。总结一下:如果你只想成为Airbnb的深度学习工程师,那么博士学位一定程度上能成为你的敲门砖。但是,如果你不是在顶级项目中攻读博士学位,那么不要期望被行业顶尖的公司录用。但是,如果你想找份普通的数据科学工作,获得博士学位可能并不是正确的举措。你可以用4到8年的时间获得丰富的工作经验,去成长为一名真正的数据科学家,那么出现新技术时,你能更好的进行预测,保持领先的位置。如果你考虑攻读与数据科学无关领域的博士学位(例如物理,生物学,化学),并且目标是找数据科学方面的工作,那么这条建议可能有些刺耳:如果你离毕业还有18个月或更长时间,而且你确定自己想成为一名数据科学家,那么可以考虑辍学。考虑到沉没成本,你应该对之前决策感到质疑,根据我之前的经验来看放弃可能是正确的选择。二、硕士学位入行数据科学需要硕士学位吗?视情况而定。以下是我列出的记分表,如果根据你的情况,分数大于6,那么答案是“硕士学位可能会有所帮助”。你有非常相关的STEM背景(物理、数学、计算机科学等本科学历):0分你有较为相关的STEM背景(生物学、生物化学、经济学等本科学历):2分你没有相关的STEM背景:5分你有不到1年的Python使用经验:3分你没有编程相关的工作经验:3分你不认为自己擅长独立学习:4分当我说这个记分表实际是一个逻辑回归算法时,你不明白我的意思:1分注意:需要考虑的是,你是否需要数据科学硕士学位或数据科学训练营。如果选择参加训练营,要注意他们的激励措施:是否课程完成后保证聘用?是否有与训练营相关的求职指导服务?许多人都对训练营持怀疑态度,这是有道理的。但大多数忽略的是,他们对待大学所提供的相关硕士学位也该如此。巩固硕士学位就相当于训练营。如果你不在乎你的成绩,那么要注重你从中学到了什么。在选择相应的硕士学位和课程项目时要询问其研究生就业率。有的大学希望学生选一个简单的专业,而不是好的专业,这是一场心理博弈。你的目标是最终被聘用,找到理想的工作,而不是仅仅为了一纸文凭而付出时间和精力。即使完成了硕士学位,你还需要学习很多技能,可能比你预想的还要多。但只要硕士课程的时间较短(最好不超过2年),成本不是太高。三、本科学位总的来说,是的,成为数据科学家你需要相关本科学位。不仅仅是因为你需要掌握相关知识,而且公司并不认为你通过自学,参加训练营和一些在线课程就能胜任数据科学的工作 。但关于本科学位你要注意的是,如果你和科技行业的人聊聊,你很快会发现科技型工作中涉及到的内容要远远超出学校课本。这是因为学校所教的本科课程一般比现实情况要滞后5到10年。如果你学的是不会发生很大变化的专业是没有太大问题的,比如如物理、数学或统计数据等。但是如果你是工程或计算机科学专业,并且你在一家出色的公司实习,你想休学或肄业来获得更多的工作经验,那么你可以考虑这样做。如果你读本科的目的是为了获得一份工作,你已经在一家有不错前景的公司获得职位,那么何必多付几年学费呢。我的意思并不是你应该不读完本科就去工作,我想说的是,如果你完成了实习并且获得了相应的全职工作,那么对于是否完成学业应该有更开放的观念。而不是因为大家都这么做,才做出这种选择。结语在本文中,我给出的一些建议可能不是那么常规。但在数据科学这样快速发展的领域,惯例往往并不是最优选择。当今社会中,人们对传统教育价值的看法应该与时俱进。当然,这并不意味着正规教育以及研究生学位是不值得的。但是,不应该认为获得硕士或博士学位是必备的。如果你读研读博只是为了符合数据科学职业轨迹的刻板印象,那么你可能需要重新考虑了。

纪念碑

2018年最具影响力的20篇数据科学研究论文,盘它!

大数据文摘出品文章来源:opendatascience.com编译:Ivy、狗小白、云舟作为一名前半生奉献给学术,现在投身业界的研究者,Daniel Gutierrez习惯在数据科学业内工作的同时,跟进学术界的最新动态。最近,通过一场网络研讨会,他发现人工智能大神吴恩达(Andrew Ng)也有一样的习惯。吴恩达提到,他经常随身携带一个装满研究论文的文件夹,利用搭车的空闲时间研究论文。Daniel Gutierrez因此建议,不管是数据科学从业者还是研究者,都可以准备一个论文文件夹来装一些论文,就像吴恩达建议的:如果你每周阅读几篇论文(部分论文可以泛读),一年后你就阅读了100多篇论文,足够比较深入地了解一个新领域。在这篇文章中,Daniel Gutierrez列出了2018年最具影响力的20篇数据科学研究论文清单,所有数据科学家都应该认真回顾。我还收录了一些综述性文章,它们可以帮助你看到当前技术领域的发展情况,同时还有完整的参考文献列表,其中不乏很多具有开创性的论文。新一年随身携带的论文合集,不如就从这里开始吧!无法科学上网的同学,可以在大数据文摘后台回复“数据科学论文”下载合集。一种新型无梯度下降的反向传播算法我们都知道,在20世纪70年代初引入的反向传播算法是神经网络学习的支柱。反向传播利用大名鼎鼎的一阶迭代优化算法进行梯度下降,用于寻找函数的最小值。本文中, Bangalore的PES大学研究人员描述了一种不使用梯度下降的反向传播方法。他们设计了一种新算法,使用Moore-Penrose伪逆找出人工神经元权重和偏差的误差。本文还在各种数据集上进行了数值研究和实验,旨在验证替代算法的结果是否符合预期。下载链接:https://arxiv.org/pdf/1802.00027.pdf一份基于深度学习的情感分析情感分析经常被用于识别和分类文本中所表达的观点,因为它可以确定作者对特定主题、产品等态度是积极、消极还是中性的,所以在处理社交媒体数据时,情感分析非常有价值。深度学习日益流行,它是一种强大的机器学习技术,可以学习到数据的多层特征并生成预测结果。随着深度学习在许多其他应用领域的成功,近年来,深度学习在情感分析中也得到了广泛的应用。本文对深度学习进行了全面的综述,并对其在情感分析领域的应用现状也进行了分析。下载链接:https://arxiv.org/ftp/arxiv/papers/1801/1801.07883.pdf应用数学家所理解的深度学习是什么作为一名数学家,我喜欢看一些关于数据科学的技术文档,并找到它们与应用数学的联系。本文从应用数学的角度出发,对深入学习的基本思想进行阐述。多层人工神经网络已在各个领域中被广泛使用,这场深度学习革命的核心实际上可以追溯到应用和计算数学的基础概念:特别是在微积分、偏微分方程、线性代数和近似/优化理论的概念中。下载链接:https://arxiv.org/pdf/1801.05894.pdf论深度学习的起源本文对深度学习模型进行了全面的历史回顾,它从人工神经网络的起源介绍到在过去十年的深度学习研究中占据主导地位的模型:如卷积神经网络、深度信念网络和循环神经网络。本文还重点介绍了这些模型的先例,分析了早期模型的构建过程,以及模型的发展历程。下载链接:https://arxiv.org/pdf/1702.07800.pdf?递归神经网络研究进展递归神经网络(RNN)能够从时间序列数据中学习序列特征和长期依赖性。RNN由一堆非线性单元组成,单元之间至少有一个连接形成有向循环。一个训练完备的RNN可以模拟任何一个动态系统,然而,RNN在训练时一直受到长期依赖性问题的困扰。本文对RNN进行了综述,并着重介绍了该领域的一些最新进展。下载链接:https://arxiv.org/ftp/arxiv/papers/1801/1801.00631.pdf关于深度学习的十大质疑尽管深度学习的历史根源可以追溯到几十年前,但“深度学习”这一术语和技术在五年前才开始流行起来,当时该领域被Krizhevsky、Sutskever和Hinton等人所统治,他们在2012年发表了经典之作“基于深度卷积神经网络的图像分类”。但在接下来的五年中,深度学习领域中又有什么发现呢?在语音识别、图像识别和游戏等领域取得长足进步的背景下,纽约大学的AI反对者Gary Marcus对深度学习提出了十个问题,并表明如果我们想要获得通用的人工智能,深度学习必须辅以其他技术。下载链接:https://arxiv.org/ftp/arxiv/papers/1801/1801.00631.pdf深度学习中的矩阵微积分本文较为全面的介绍了深度神经网络中(以及参考文献表中大多数论文)所需的所有线性代数知识。除了基础微积分知识之外,本文深奥的数学知识很少。请注意,若你还是深度学习新手,这篇论文对你来说意义不大;相反,若你已经熟悉神经网络基础知识并希望加深对基础数学的理解,这篇论文将非常适合你研究。相关报道:https://arxiv.org/abs/1802.01528群组归一化批量归一化(BN)是深度学习开发中的里程碑技术,它使得各种网络的训练成为了可能。但是,沿批量维度进行归一化会带来一些问题:当批量大小变小时,由于批次统计估计不准确,BN的误差会迅速增加。这限制了BN在训练大型模型以及计算机视觉任务(包括检测、分割视频)中的使用,因为这些任务需要的是受内存消耗限制的小批量。本文由Facebook AI研究人员(FAIR)提出,将Group Normalization(GN)作为BN的简单替代方案。GN将通道分成群组,并在每组内计算标准化的均值和方差。GN的计算与批量大小无关,并且其准确性在各种批量大小中都是稳定的。下载链接:https://arxiv.org/pdf/1803.08494.pdf平均参数比重能带来更广泛的优化和更好的概括能力深度神经网络的训练一般通过使用随机梯度陡降(SGD)变量和递减学习率来优化一个损失函数,直至其收敛。这篇论文指出,对SGD曲线上的多个点取简单平均数,并使用周期波动或恒定的学习率比传统训练方式有更好的概括能力。这篇论文还展示了,这个随机平均参数比重(SWA)过程比SGD有更广泛的优化能力,仅用一个模型就达到了之前快速集合法的效果。下载链接:https://arxiv.org/pdf/1803.05407.pdf对基于神经网络进行文本总结方法的调查自动总结归纳文本,或者说在保留主要含义的同时压缩文本长度,是自然语言处理(NLP)领域的一个重要研究范畴。这篇论文对近来基于神经网络的模型在自动文本总结方面进行了研究。作者详细审查了十款最前沿的神经网络摘要器:五款摘要模型,以及五款提炼模型。下载链接:https://arxiv.org/pdf/1804.04589.pdf神经网络风格传输的回顾Gatys等人在2015年“针对艺术风格的神经网络算法”这篇开创性著作中,展示了卷积神经网络(CNN) 能够分离和重组图片的内容和风格,在生成艺术图像上表现出了强大的能力。这个使用CNN来渲染不同风格的内容图像被称作神经网络风格传输(NST)。此后,NST在学术著作和工业应用上都很是热门,受到越来越多的关注,也产生了很多种致力改善或者扩展原有NST算法的方法。这篇论文对NST目前的发展状况提供了概览,也对未来研究提出了一系列问题。下载链接:https://arxiv.org/pdf/1705.04058.pdf几何数据:在机器学习领域针对黎曼几何的一个Python包在机器学习领域应用黎曼几何越来越受人们关注。这篇论文引入了几何数据这一概念,也给出了应用于诸如超球面、双曲空间、空间对称正定矩阵和李群变换等多重内容计算的python包。此外,论文中还包含了对于这些多重内容的应用,以及实用的黎曼度量和相关的外生性、对数图。相应的测地线距离提供了一系列机器学习损失函数的直观选择。作者还给出了对应的黎曼梯度。几何数据的操作可用于不同的计算后台,比如numpy, tensorflow和keras。文章作者使keras深度学习框架综合应用GPU和几何数据多重内容计算变成了可能。下载链接:https://arxiv.org/pdf/1805.08308.pdf一个更通用的稳健损失函数这篇论文展示了一个双参数损失函数,可视为对稳健统计学中很多常用的损失函数的一个概括,这些常用的损失函数包括Cauchy/Lorentzian, Geman-McClure, Welsch/Leclerc和广义卡尔波涅尔损失函数(按传递性分为L2,L1,L1-L2和pseudo-Huber/Charbonnier损失函数)。作者描述并可视化展示了这个损失和相应的分布,并列出了它的一些实用性特质。下载链接:https://arxiv.org/pdf/1806.01337.pdf反向退出:随机反向传播算法这篇论文引入了“反向退出”的概念,也即一个灵活而应用简便的方法,可以直观地表述为,退出现象仅沿着反向传播管道发生。反向退出的应用是沿着网络中特定点插入一个或多个屏蔽层。每个反向退出的屏蔽层在正推法中被视为特征,但几乎不屏蔽部分反向梯度传播。直观来看,在任何卷积层之后插入反向退出层会带来随机梯度,随刻度特征不同而有不同。因此,反向退出非常适用于那些有多重刻度、金字塔结构的数据。下载链接:https://arxiv.org/pdf/1806.01337.pdf关系型强化深度学习这篇论文引入了一个通过结构化感知和关系型推理从而提升强化深度学习(RL)的方法,主要表现在改善效率、泛化能力和提升传统方法的解读能力。通过自我感知来迭代推理场景中的主题和引导无模型原则之间的关系。结果显示,在一个拥有新型导航和任务计划的“盒世界”中,代理找到了可解释的解决方案,从而可以在基线之上改善样本的复杂度、泛化能力(在训练中能应对更的复杂场景)以及整体表现。下载链接:https://arxiv.org/pdf/1806.01830.pdf一个非常有趣的案例:卷积神经网络和执行坐标转化方法的失败深度学习里几乎没有别的概念像“卷积”那样大的影响力了。对包含像素或空间表征的任何问题,普遍的直觉就是试试看CNNs。这篇论文通过一个看似微不足道的坐标转化问题展示了一个反直觉的案例,也即单纯要求机器在坐标(x,y)笛卡尔空间和一个热像素的空间之间学习一个地图。虽然CNNs似乎很适用于这个场景,来自Uber的作者们证明了卷积神经网络法最终失败了。这篇论文展示并仔细检验了这个失败案例。下载链接:https://arxiv.org/pdf/1807.03247.pdf反向传播法的演变反向传播算法是深度学习的基石。尽管其非常重要,但很少有方法尝试调整其算法。这篇论文展示了一种发现新的反向传播方程变式的方法。来自Google的作者使用了一种领域专用语言,将升级的方程描述为一系列原始方程。基于进化的方法被用来发现新的反向传播原则,该原则在一系列最大训练次数后能够最大化泛化能力。这个研究发现了一些升级方程,相较标准的反向传播算法在较少次数内训练得更快,并在收敛时有与标准反向传播算法近似的表现。下载链接:https://arxiv.org/pdf/1808.02822.pdf在深度卷积神经网络学习时代里,物体探测领域近来的发展物体探测就是对于特定类别图片,比如车、飞机等进行探测的计算机视图任务 ,它在过去五年里在人工智能领域里吸引了非常多的关注。这些关注,既源于该领域在实际应用的重要性,也是因为自从CNNs时代的到来,它是人工智能领域里现象级的发展。这篇论文是对近来使用深度卷积神经网络学习方法的物体探测领域著作的一个全面回顾,也对近来这些发展进行了深刻的透析。下载链接https://arxiv.org/pdf/1809.03193.pdf语言交互式AI的神经网络法这篇论文对近年来发展出的语言交互式AI中神经网络方法进行了调查。语言交互式AI可被分为三个类别:1. 回答问题的机器人2. 以任务为导向的对话机器人3. 自动化语音聊天机器人。针对每个类别,文章使用特定系统和模型为案例,展示了领域最前沿的神经网络方法,并将其与传统方法比较,讨论其进步之处和仍面临的问题。下载链接:https://arxiv.org/pdf/1809.08267.pdf可撤销的循环神经网络循环神经网络(RNNs)在运行序列数据上表现最优秀,但训练起来更占用内存,也就限制了RNNs模型的灵活性。可撤销的循环神经网络,也就是“隐藏对隐藏”的转化能被撤销的RNNs,提供了减少训练所需内存的一个路径,因其隐藏状态无需存储,从而能够在反向传播算法中被重新计算。这篇论文展示了完美可撤销RNNs从根本上就是受限的,因为它们依然需要记住隐藏状态。随后,为了实现能够忘记隐藏状态的完美可撤RNNs,文章提供了存储少量bits的方法。作者这个方法达到了传统模型的近似效果,同时减少了活动内存成本约10-15个百分点。下载链接:https://arxiv.org/pdf/1810.10999.pdf相关报道:https://opendatascience.com/most-influential-data-science-research-papers-for-2018/

田猎毕弋

苏伦大数据科技研究院签约成为南京市第三批新型研发机构

4月26日上午,南京市举行“两落地一融合”第三批新型研发机构签约仪式。 图为“两落地一融合”签约活动现场签约仪式在南京市政府机关礼堂一楼会议室举行。南京市第三批共有46家新型研发机构项目签约。江苏省委常委、南京市委书记张敬华,市主要领导蓝绍敏、杨学鹏、陆永辉、蒋跃建等出席签约仪式。苏伦大数据科技研究院(以下简称“苏伦大数据”)秘书长周海峰和院长助理言骏飞作为代表参加仪式。签约仪式由南京市副市长蒋跃建主持,市长蓝绍敏发表重要讲话。图为南京市市长蓝绍敏发表讲话“两落地一融合”工程启动以来,先后成功签约77个新型研发机构项目,创新集群初步形成。围绕市里确定的“4+4+1” 的主导产业方向,集聚创新资源和要素。新一批46个项目的签约,标志着新型研发机构队伍将进一步发展壮大。根据市委市政府的要求,主动靠前服务,重在提升质量。同时加大对各类校友经济平台、人才联盟的支持力度,强化各类要素支撑,推动新型研发机构高质量发展、高效率孵化。图为周海峰秘书长代表苏伦参加仪式苏伦大数据作为此次南京市第三批签约的新型研发机构,是南京市秦淮区最早成立,也是最先全面投入运营的新型研发机构。苏伦大数据由国际级大数据专家、英国帝国理工学院终身教授、数据科学研究所所长,上海大学计算机工程与科学学院院长郭毅可创立并担任院长,旨在打造全球首个O2O大数据科技生态系统,成为全球商业智能解决方案领导者,推动国内外大数据人才的培育发展。在秦淮区委、区政府的关心支持下,经过近一年的快速发展,已形成“三部五所一基金一实验室”的核心架构。苏伦大数据的相关技术的输出和成果的转化,已成功运用到金融科技、服装设计、智能制造、食品溯源及流通等领域,并取得了良好的社会和经济效益。苏伦大数据副院长刘洪辞指出此次新型研发机构的签约,是苏伦大数据科技研究院积极响应南京市市委市政府加快推进“两落地一融合”工作要求的重要举措,是苏伦大数据依托国内外高校努力创新、迅速发展的成果,也是苏伦新征程的起点。此次签约为尽快实现研发成果的转化提供了动力和竞争力。人才是新型研发机构发展的核心源动力,人才的引进和培育是苏伦大数据工作的重点。*苏伦大数据科技研究院旨在打造全球首个O2O大数据科技生态系统,成为全球商业智能解决方案领导者,推动国内外大数据人才的培育发展。大数据应用专注为民生、服装、医疗、金融、智造、政务等领域提供完整的大数据解决方案和大数据人才培养服务。

惴惴不安

国内权威数据专家、学者福州论道“数据科学研究的挑战与机遇”

研讨会现场 东南网记者张立庆摄东南网11月22日讯(本网记者 张立庆)21日-22日,“数据科学研究的挑战与机遇”研讨会在福州外语外贸学院举行,来自北京大学、中国科学院大学、复旦大学、浙江大学等国内15所高校的数据领域权威专家、学者汇聚福州,就当前数据科学研究应用所面临的挑战与机遇展开深入的探讨。当前,大数据时代的数据呈现爆炸式增长态势,数据量级和数据维度不断增长、数据类型日益复杂,传统的思维方式、工程能力、管理手段、技术工具、人才结构等方面面临新问题、新挑战。本次研讨会通过对大数据时代面临问题的探讨,旨在寻求解决方案,寻找新的研究思路和创新技术来解决新问题,以便从大数据之海中获取有价值的信息,更好指导未来决策。研讨会内容涉及金融大数据、地球动力学大数据、大规模矩阵(张量)计算、机器学习、模式识别、图像处理、数值优化相关算法等。论坛现场,中国科学院计算地球动力学重点实验室主任、中国科学院大学地球与行星科学学院教授张怀表示,当前学生或研究人员需要具备高性能计算、数据分析、人工智能和可视化方面技术的深度学习,高校可重点关注未来有巨大发展潜力的量子计算和量子信息等热门领域。研讨会主办方为福州外语外贸学院,该校主动融入地方经济社会发展,在全国高校中率先开设了数据科学与大数据技术、大数据管理与应用、智能建造等全日制本科专业。学校建立大数据与信息应用技术研究中心、福建致公经济研究院、银行与金融研究院等科研平台。理工学院院长宁正元向记者介绍,福建作为“数字中国”战略的思想源头和实践起点,全国首批国家数字经济创新发展试验区,高校在推进“数字福建”发展中发挥重要作用,举办这样的研讨会,通过邀请全国权威专家作相关报告,共同分享交流重大前沿领域的动态、成果,一方面推动科研向深度发展,另一方促进教育教学水平大幅度提升,从而更好为“数字福建”提供更多优秀人才。

功能

蜂鸟数据研究院:您应该为数据科学学习哪门

数据科学是一个令人兴奋的领域,它将先进的统计和定量技能与实际编程能力相结合。有抱负的数据科学家可能会考虑采用许多潜在的编程语言。虽然没有正确的答案,但有几件事要考虑。您作为数据科学家的成功取决于很多方面,包括:特异性当涉及到高级数据科学时,每次您都只能重新发明轮子。学习掌握以您选择的语言提供的各种软件包和模块。可能的程度首先取决于您可以使用哪些特定领域的软件包!概论顶尖的数据科学家将具有良好的综合编程技能以及数字处理能力。数据科学中的许多日常工作都围绕着采集和处理原始数据或“数据清理”。为此,没有任何花哨的机器学习包会有所帮助。生产率在快节奏的商业数据科学世界中,要快速完成工作有很多话要说。但是,这正是技术债务蔓延的原因,只有明智的做法才能将这种情况降到最低。性能在某些情况下,优化代码的性能至关重要,尤其是在处理大量关键任务数据时。编译语言通常比解释语言要快得多。同样,静态类型的语言比动态类型的语言具有更好的防故障能力。明显的权衡取舍是生产力。在某种程度上,它们可以看作是一对轴(通用性,性能和生产率)。下面的每种语言都属于这些频谱。牢记这些核心原则,让我们看一下数据科学中使用的一些更流行的语言。接下来是我自己,朋友和同事的研究和个人经验的结合,但这绝不是确定的!按流行程度大致如下:RR于1995年作为较旧的S编程语言的直接后代发布,此后变得越来越强大。该项目由C,Fortran及其本身编写,目前得到R统计计算基金会的支持。优点l 高质量,特定领域和开源软件包的优秀产品。R提供了几乎所有可以想象的定量和统计应用程序的软件包。这包括神经网络,非线性回归,高级绘图以及许多其他功能。l 基本安装带有非常全面的内置统计功能和方法。R还可以很好地处理矩阵代数。l 借助ggplot2之类的库,数据可视化是关键优势。缺点l 性能。R不是一种快速的语言。l 域特异性。对于统计和数据科学而言,R太棒了。但是R并不是一门通用编程语言。l 怪癖。R具有一些不寻常的功能,这些功能可能赶不上使用其他语言的程序员。例如:使用多个赋值运算符从1开始索引,使用非常规数据结构。R是一种功能强大的语言,擅长于各种统计和数据可视化应用程序,并且开源是一个非常活跃的贡献者社区。它最近的普及度证明了它在做事上的有效性。PythonGuido van Rossum于1991年引入Python。此后,Python成为一种非常流行的通用语言,并在数据科学界广泛使用。当前的主要版本是3.7。2.0版本已经停止维护。优点l Python是一种非常流行的主流通用编程语言。它具有广泛的专用模块和社区支持。许多在线服务都提供Python API。l Python是一种易于学习的语言。入门门槛低,使其成为编程新手的理想第一语言。l 包括pandas, scikit-learn和Tensorflow使Python成为高级机器学习应用程序的可靠选择。缺点l 类型安全性:Python是一种动态类型化的语言,这意味着您必须格外小心。有时会出现类型错误(例如将String作为参数传递给需要Integer的方法)。l 为了实现特定的统计和数据分析目的,R广泛的软件包使其与Python相比有一点优势。l 对于通用语言,Python提供了更快,更安全的替代方法。Python是数据科学语言的很好选择,而不仅仅是入门级的语言。许多数据科学过程围绕ETL过程(提取-转换-加载)进行。这使得Python的通用性非常适合。诸如Google的Tensorflow之类的库使Python成为一种非常激动人心的语言,可用于机器学习。SQLSQL(“结构化查询语言”)定义,管理和查询关系数据库。该语言于1974年问世,此后经历了许多实现,但是核心原理保持不变。优点l 查询,更新和操作关系数据库非常有效。l 声明式语法使SQL常常是一种易读的语言。关于SELECT name FROM users WHERE age > 18应该做什么没有任何歧义!l SQL在各种应用程序中使用非常广泛,使其成为一种非常有用的语言。诸如SQLAlchemy之类的模块使SQL与其他语言的集成变得简单。缺点l SQL的分析功能非常有限-除了聚合,求和,计数和平均数据之外,您的选择也受到限制。l 对于来自命令性背景的程序员而言,SQL的声明性语法可以显示学习曲线。l SQL有许多不同的实现,例如PostgreSQL,SQLite,MariaDB。它们之间的差异足以使互操作性令人头疼。SQL作为数据处理语言比作为高级分析工具更有用。然而,这么多的数据科学过程都取决于ETL,而SQL的寿命和效率证明了它是现代数据科学家了解的非常有用的语言。JavaJava是一种非常流行的通用语言,可在(JVM)Java虚拟机上运行。它是一个抽象的计算系统,可实现平台之间的无缝移植。目前由Oracle Corporation支持。优点l 无处不在。许多现代系统和应用程序都建立在Java后端上。将数据科学方法直接集成到现有代码库中的能力是一种强大的功能。l 强类型。在确保类型安全性方面,Java毫无疑问。对于关键任务大数据应用程序,这是无价的。l Java是一种高性能的通用编译语言。这使其适合编写高效的ETL生产代码和计算密集型机器学习算法。缺点l 对于临时分析和更专用的统计应用程序,Java的冗长性使其成为不太可能的首选。动态类型的脚本语言(例如R和Python)可提高生产力。l 与R之类的领域特定语言相比,Java中没有太多可用于高级统计方法的库。学习Java作为首选的数据科学语言有很多话要说。许多公司将欣赏将数据科学生产代码直接无缝集成到其现有代码库中的能力,并且您会发现Java的性能和类型安全是真正的优势。但是,您将没有其他语言可用的特定于统计信息的软件包范围。话虽这么说,绝对是要考虑的一个-特别是如果您已经了解R和/或Python之一。Scala于2004年发布,是一种在JVM上运行的语言。它是一种多范式语言,支持面向对象和功能方法。集群计算框架Apache Spark用Scala编写。优点l Scala + Spark =高性能集群计算。对于使用大量数据集的人员来说,Scala是理想的语言选择。l 多范式:Scala程序员可以兼得两全。面向对象和功能编程范例都可以使用。l Scala被编译为Java字节码,并在JVM上运行。这允许与Java语言本身进行互操作,从而使Scala成为功能非常强大的通用语言,同时也非常适合数据科学。缺点l 如果您刚起步,Scala不是一门简单易懂的语言。最好的选择是下载sbt并使用特定的Scala插件设置IDE(例如Eclipse或IntelliJ)。l 语法和类型系统通常被描述为复杂的。这为那些来自动态语言(例如Python)的人提供了陡峭的学习曲线。在使用群集计算与大数据一起使用时,Scala + Spark是绝佳的解决方案。如果您有Java和其他静态类型语言的使用经验,那么您也会喜欢Scala的这些功能。但是,如果您的应用程序不处理足以证明Scala增加了复杂性的数据量,那么使用R或Python等其他语言可能会发现您的生产力要高得多。JuliaJulia发布于5年前,在数值计算领域给人留下了深刻的印象。由于包括金融业在内的数个主要组织的早期采用,提高了它的形象。优点l Julia是一种JIT(“及时”)编译语言,可提供良好的性能。它还提供了像Python这样的解释语言的简单性,动态键入和脚本编写功能。l Julia专为数值分析而设计的。它也能够进行通用编程。l 可读性。许多使用该语言的用户都将其作为主要优势缺点l 作为一种新语言,一些Julia用户在使用软件包时会遇到不稳定的情况。但是据报道,核心语言本身已经足够稳定,可供生产使用。l 有限的软件包是该语言的年轻化和小型开发社区的另一个结果。与历史悠久的R和Python不同,Julia尚未选择软件包。Julia的主要问题是不能责怪的。作为一种新近开发的语言,它不像它的主要替代品Python和R那样成熟或可以投入生产。但是,如果您愿意耐心等待,那么随着该语言在未来几年的发展,我们有充分的理由予以密切关注。MatlabMATLAB是一种在学术界和行业中广泛使用的已建立的数值计算语言。它由MathWorks开发并获得许可,该公司成立于1984年,旨在将该软件商业化。优点l 专为数值计算而设计。MATLAB非常适合具有复杂数学要求的定量应用,例如信号处理,傅立叶变换,矩阵代数和图像处理。l 数据可视化。MATLAB具有一些出色的内置绘图功能。l 在许多物理,工程和应用数学等定量学科的本科课程中,经常将MATLAB授课。结果,它在这些领域中被广泛使用。缺点l 专有许可证。根据您的用例(学术,个人或企业),您可能不得不为获得昂贵的许可证付出代价。有免费的替代品,例如Octave。这是您应该真正考虑的事情。l 对于通用编程而言,MATLAB不是一个显而易见的选择。MATLAB在整个行业和学术界在定量和数值领域的广泛使用使其成为数据科学的重要选择。明确的用例是您的应用程序或日常角色需要密集的高级数学功能时;实际上,MATLAB是为此专门设计的。结论好了,您已掌握了数据科学可以使用哪些语言。这里的关键是要从通用性和特异性方面了解您的使用要求,以及您个人对性能与生产率的偏好开发风格。我经常使用R,Python和SQL,因为我目前的职责主要集中在开发现有的数据管道和ETL流程上。这些语言在一般性和生产率之间实现了适当的平衡,可以在需要时选择使用R的高级统计软件包。但是,您可能已经对Java有一定的经验。或者您可能想将Scala用于大数据。或者,也许您渴望参与Julia项目。也许您是在大学学习过MATLAB,还是想给SciRuby一个机会?也许您有完全不同的建议!如果是这样,请在下面留下答复-我期待着您的来信!

非洲人

一名大数据专业研究生的自述:跟上这个时代是挺好的事

走进经济生活里的一切导读:2016年2月,教育部公布新增“数据科学与大数据技术”专业,北京大学、对外经济贸易大学、中南大学成为首批获批高校。次年,又有32所高校获批。此次248所高校获批“数据科学与大数据技术”专业,几乎是前两次获批高校的8倍。来源丨21世纪经济报道(ID:jjbd21)记者丨王峰 北京报道图片来源/ 图虫创意(资料图)“没有什么行业是没有数据的”“我认为没有什么行业是没有数据的。”清华-伯克利深圳学院数据科学与信息技术专业一年级硕士生王宇杰说。 他在去年9月从一名工科本科生跨学科进入了大数据专业。大数据专业正成为时下火热的高校新增专业。在4月28日举行的教育部新闻发布会上,教育部高等教育司副司长范海林介绍,2017年全国高校备案专业中,新增数据科学与大数据技术专业点250个,同比增加了近7倍。从中国人民大学、北京师范大学、厦门大学等知名大学,到一些地方院校均投入了这股热潮。王宇杰大二时在一次展会上不经意接触到了一款大数据可视化软件Tableau,由此对大数据产生了浓厚的兴趣。通过Tableau,王宇杰感受到,数据分析这个行业的潜力无可限量。随着移动互联网大数据时代的到来,数据量正在不断增长。未来,更多人将学会分析数据,并将数据的洞察运用到工作和生活中的方方面面。数据分析会从小众走向主流,人人都可以成为数据分析师。接下来的大学时间里,他参加了一些数据科学家训练营,和一些商业机构组织的训练营,还在慕课网站上自修了国外大学的大数据课程。他在2016年的Tableau可视化分析争霸赛北京赛区比赛中拿到了第一名。Tableau可视化分析争霸赛是全球可视化数据分析人士的年度饕餮盛宴,每年都会成千上万数据狂人参加这一比拼。这其中,既有来自各行各业的数据分析专家,也有像王宇杰这样的数据爱好者,而王宇杰是获奖选手中唯一一名大学生。通过这些活动,王宇杰结识了这个一不断壮大的数据分析社区,也让他对这个行业更加充满热情。大四时,王宇杰得到了保研的机会,“国内开设大数据方向研究生专业的大学并不多,主要有清华大学、北京大学、复旦大学、北京航空航天大学等,这是当时比较知名的几个高校。”王宇杰说。王宇杰得到了北大和清华的offer,权衡之后,他选择了清华-伯克利深圳学院,这是清华和伯克利合办的硕士研究生项目,不仅可以在清华拿到数据科学学位,还有机会到美国加州大学伯克利分校去进行为期9个月的学习,同时拿到相关学位。“我是清华-伯克利深圳学院招收的第二届硕士生,也就是说,大数据专业其实是一个非常崭新的学科,在我申请的那一年,相对来说,大家对这个概念还不是特别了解,当然已经有一定数量的申请者,远超我们实际录取的人数,但并不是那么的火爆。”王宇杰说。“到了我下面那届,就是招收第三届硕士生的时候,竞争就变得异常激烈,在短短一年时间里,这个专业成为了大家认可的非常有潜力的专业,大批的工程本科生,或者是数学、经济方面的学生开始申请我们这个方向,因此录取率直线下降。个人感觉在近几年内,竞争会变得越来越激烈。”他说。清华-伯克利深圳学院的数据科学与信息技术研究中心设有6个实验室,分别为传感器与微系统实验室、纳米器件实验室、物联网与社会物理信息系统实验室、未来互联网研究实验室、大数据实验室、智能成像实验室。“我想一般人会认为我们专业课的名称会比较高大上,像大数据分析、大数据基础等,的确会有这些,但从本质上来说,我认为我们学的课程跟数学、工程学这些基础学科没有太大区别,当然加入了一些新兴科技的课程,比如现在很火的深度学习、人工智能。”他告诉记者。王宇杰进入了智能成像实验室,学习和科研课题是关于计算机视觉。“用一句话来概括,我们要做的是赋予计算机人的视觉能力。怎么理解呢?以后是一个有大量机器人存在的世界,而机器人要跟人类进行交互,做一些基本的工作,必须要有视觉能力,看得懂周围的环境,所以我们做的事情就是通过技术的方法让计算机拥有人的这种视觉能力。”他说。热门专业:数据科学与大数据技术图片来源 / 新华社(资料图)3月21日,教育部公布了2017年度普通高等学校本科专业备案和审批结果。在新增备案本科专业中,“数据科学与大数据技术”最为热门。根据统计,共有250所高校新增“数据科学与大数据技术”专业,其中包括中国人民大学、北京师范大学、厦门大学等19所教育部直属高校。河南省21所高校新增该专业,为最多的省份。河北、山东、安徽、广东、江苏等省也有较多高校成功获批。2016年2月,教育部公布新增“数据科学与大数据技术”专业,北京大学、对外经济贸易大学、中南大学成为首批获批高校。次年,又有32所高校获批。此次248所高校获批“数据科学与大数据技术”专业,几乎是前两次获批高校的8倍。该专业备受高校青睐与国家大力支持大数据产业发展及该产业人才奇缺相关。国务院2015年8月曾印发《关于印发促进大数据发展行动纲要的通知》,明确鼓励高校设立数据科学和数据工程相关专业,重点培养专业化数据工程师等大数据专业人才。根据教育部上述2017年度高校本科专业备案和审批结果,此次共有60所高校获批“机器人工程”专业。“机器人工程”专业大热的背后,是人工智能行业的持续发展。3月6日,南京大学官网正式发布新闻,经研究决定,南京大学正式成立人工智能学院。今年政府工作报告中四次提及“智能”,并特别指出要“加强新一代人工智能研发应用”、“发展智能产业”。值得注意的是,从清华大学到地方高校,大数据专业成为普遍的时尚。“清华或者其他一般院校,在这个领域里对科研的贡献会有差异,但事实上,在如今的大环境之下,大家都想跟上时代潮流,所以我认为无论处于怎样的研究水平,敢于去跟上这个时代,就是挺好的一件事情。”王宇杰说。“大数据是一个概念,它包含的范围非常广,不同的专业方向,对外显示的名称可能都是大数据分析、大数据工程与技术,但是整个产业其实非常庞大,从前到后拥有一个很大的产业链。”他说。“我认为数据分析师这个称谓已经太过宽泛了,我觉得这个行业需要细分,未来会有专门做算法的工程师,专门做硬件实现的工程师,以及专门做理论推导的科研人员等。”他说。(编辑 戴春晨)

捧喝

全经联与中科院虚拟经济与数据科学研究中心签署战略合作协议

2020年11月15日下午,全经联与中国科学院虚拟经济与数据科学研究中心签署战略合作协议,在国务院参事、中国科学院虚拟经济与数据科学研究中心主任石勇教授和全经联执行主席杨乐渝先生共同见证下,中国科学院大数据挖掘和知识管理重点实验室成果转化中心主任张展、全经联秘书长姜炜分别代表双方签约。前排(左)全经联秘书长姜炜,(右)中国科学院大数据挖掘和知识管理重点实验室成果转化中心主任张展,后排(左)全经联执行主席杨乐渝,(右)国务院参事、中国科学院虚拟经济与数据科学研究中心主任石勇。双方将发挥各自优势、紧密合作,以数字经济为引擎,以幸福产业为内容和载体,在全国各地协同落地,赋能城镇和企业的高质量发展。中国科学院虚拟经济与数据科学研究中心下设5个研究室,分别为:虚拟经济研究室、数据挖掘与最优化研究室、绿色经济研究室、虚拟商务研究室、社会计算与电子健康研究室。本次战略协议的签订,标志着全经联在数字经济发展领域新的突破,将极大促进全经联会员企业和幸福产业lP的数据共享和数据协同,推动全经联会员企业在数字时代驶进快车道、迈上新台阶、获得新发展!中国科学院虚拟经济与数据科学研究中心是中国科学院直属研究机构,现任主任由国务院参事、国际著名大数据专家石勇院士担任,拥有强大的研究与产业化队伍。目前集合了中国科学院大学数学科学学院、计算机与控制学院、经济与管理学院的相关人才,成立“中科院大数据挖掘与知识管理重点实验室”。还联合中国科学院计算技术研究所、中国科学院计算机网络信息中心等单位成立“大数据分析技术国家工程实验室”。通过实验室的建立搭建合作平台,进一步推动落实国家大数据发展战略。全经联是以“全产业、新经济、联发展”为使命和战略,由创新企业家和创新企业组成的,“平台+智库+资本+产业lP+加速器”的共生系统和幸福产业生态。