科学研究大数据【科学研究大数据问答】

大数据发展背景及研究现状

归则下之

江汉声

去百度文库，查看完整内容>内容来自用户:路过32sky随着计算机存储能力的提升和复杂算法的发展，近年来的数据量成指数型增长，这些趋势使科学技术发展也日新月异，商业模式发生了颠覆式变化。《分析的时代：在大数据的世界竞争》是2016年12月麦肯锡全球研究院（MGI）发表的一份报告。五年前MGI就指出大数据分析在基于定位的服务、美国零售业、制造业、欧盟公共部门及美国健康医疗领域有很大的增长潜力。数据正在被商业化，来自网络、智能手机、传感器、相机、支付系统以及其他途径的数据形成了一项资产，产生了巨大的商业价值。苹果、亚马逊、Facebook、谷歌、通用微软以及阿里巴巴集团利用大数据分析及自己的优势改变了竞争的基础，建立了全新的商业模式。稀缺数据的所有者利用数字化网络平台在一些市场近乎垄断，只需用独特方式将数据整合分析，提供有价值的数据分析，几乎可以“赢家通吃”。2011年全球的数据储量就达到1.8ZB，与2011年相比2015年大数据增长了近4倍，未来十年，全球数据存储量还将增长十倍，大数据成为提升产业竞争力和创新商业模式的新途径。大数据在企业中得到了充分的应用并实现了巨大的商业价值。梅西百货的SAS系统可以根据7300种货品的需求和库存实现实时定价。零售业寡头摩尔玛通过最新的搜索引擎Polaris，利用语义数据技术使得在线购物的完成率提升了

展开

转：大数据到底要研究什么？

两天半

孔繁森

外行人一看就知道是要让所有东西3332636431都联上因特网。后来，又是云计算，说是要把计算放到云里去。云在哪里呢？反正在远处，也还可以理解。最近，在计算机软件领域，到处都在喊大数据。这有点不好理解。数据（data）是个不可数名词，怎么来大小了？我自己也一样，最近大致学习了一下，看大数据究竟要研究什么？提出来抛砖引玉吧！何谓“大”数据？70年代若干兆字节（MB）就算大量数据了，以后是千兆字节（GB）、兆兆字节（TB），而现在已经到了PB级（1PB=1024TB），而高端数据仓库已达EB级（1EB=1024PB）。反正是千倍千倍的往上翻。想想，光是全世界各地装的摄像头有多少，每时每刻都在产生数据。唱歌、通话、录音产生多少数据。多少亿人上网、发微博，多少数据！有了因特网，这些数据就都在网上流通，而不是死在那里。票子不流通就没有价值，数据也一样。数据不利用也毫无价值。所以，的确每天都产生大量的数据，需要处理。所以有大数据，而且需要处理。这一点，没有疑义。在计算机领域，早就有数据库分支，后来发展到数据仓库，也有人叫海量数据处理。现在又提出所谓“大数据”。有了因特网以后，数据的一个重要特征是互动性和动态性，就是说任何用户既可以下载，也可以上传，也可以实时对话。例如在线商务，政府的群众情绪分析，卫生部门的流行病疫情分析，社会科学家研究社会网络如何扩散社会呼声及如何有效处理。但是，这些都属于大数据技术的应用，虽然每一个都需要一个应用程序，但不属于大数据技术本身。可这些都要求支持大量数据的计算、搜索和存储。因此，大数据分析和管理成为当今计算领域最关键性的挑战。有人认为，大数据主要是数理统计，对大量同类型数据进行统计分析。这属于数理统计学科，不属于计算学科。也有人认为，大数据主要是数据挖掘、机器学习。这倒有点靠谱。但是，数据挖掘、机器学习是另外两个学科领域。不能把数据挖掘、机器学习包括在大数据的研究范围之内。大数据是数据库发展而来的。数据库要做的是数据的组织、存储和管理。关系数据库比较容易创建和存取，而且容易扩充。在数据库创建之后，一个新的数据种类能被添加而不需要修改所有的现有应用软件。并行数据库的SQL语言应运而生。但是，大数据来了以后，没有一个设备能存储这么大量的数据，它必须存储在许多的存储设备中。一个硬盘即使能存1TB，对于EB的数据也无济于事。而且，读写都很费时。串行地组织、管理、搜索这么大量的数据，用多么快的计算机都无能为力。因为超级计算机可以计算得很快，但与存储设备的输入输出快不了。所以，串行根本是不可取的，必须并行化。当前的大数据基本都运行于网络化的计算机群（Cluster of computers）上，每一个都有自己的处理器、存储器和硬盘。数据分布在多个计算机机群上，通常采用哈希分块，或者按范围、随机分块，或者队列，其处理一般用并行基于哈希的分而治之的算法。这里，“分布”和“并行”成了两个关键词。不可想象，能有一个计算机来管理整个计算机机群。更新、搜索数据都必须是分布式的，而且不能串行，一个一个地来做。Google开发了一个谷歌文件系统（GFS），可以在成百上千的机群里进行基于字符串的文件搜索。用户可以并行地加入数据，也可以实时地把数据加入到某一类中（MapRece）。Yahoo和其他Web公司，譬如Facebook，搞了一个谷歌大数据栈的开源软件，从而产生了现在很时髦的Hadoop平台及HDFS存储层。为了要实现在线事务处理（OLTP），容错不可少。由于上亿用户的同时使用，OLTP系统必须很快查找、更新用户资料，任务很多，要快、不能错、防攻击，而且还不能太贵。Google和Amazon都开发了他们自己的系统。今天，Hadoop和HDFS已经成为大数据分析占有统治地位的平台了。数据分析不能停留在MapRece水平，而是要更高层次的说明性语言，更容易表达、书写、找错。这样的语言大家都在搞。这样，问题就来了：我们是跟着这些大公司，跟踪和改进Hadoop，还是另辟蹊径。我们搞跟踪搞了几十年了，基本都用人家的，然后搞汉化。人家搞汉化甚至比我们还快。我们搞出来的东西常常没人家好用，市场就先入为主，被人家占领了。另外搞一个类似的东西，既抢不到市场，学术价值也不大。这时候，科学研究就见功力了。抓不住基础性问题，没有全新的想法，就很难出原始创新的成果。归根结底，基础性问题是大数据的分布存储，并行处理。就像一个人有一个任务，需要许多人参与才能完成，而且他们互不相识，任何个人都完不成。应该怎么做？大家想想，也许能把这个问题说得更加确切一些。

展开

大数据发展前景以及最新的研究成果有哪些？

穷通

贝贝熊

　　参考前瞻产业研究院《中国大数据产业发展前景与投资战略规划分析报告》显示，中国目前的大数据应用环境和技术相对于美国而言，在整体技术水平、应用环境、国民意识、商业环境、技术厂商、技术平台上面相差超过5年左右。在大数据应用的国家战略层面落后的也较多。　　目前了解到的信息是上海政府计划建设大数据产业园，通过政府自身投资来建立大数据平台，吸引中小企业将信息系统及数据放到政府主导的数据平台上，政府将利用此平台来挖掘数据信息，提供数据信息报告。另外一个大数据应用是地方政府请一些大数据公司来开发舆情检测系统，及时了解社会舆论。无论是大数据产业园还是舆情监控。我个人认为没有抓住大数据优势的核心，大数据产业园的管理机制和创新动力不足，无法发挥大数据计算的优势，反而浪费了大量的投资，效率较低。舆情监控本身就无法发挥大数据的商业应用优势，反而阻碍大数据产业的商业应用。我们应该提供大数据产业优惠政策，在资金、场地、税收、科研方面提供外部支持，让企业自身投入到大数据产业建设之中，从企业自身商业需求出发，投入资金来发展大数据产业。　　最后总结一下，大数据时代将会给人类社会带来巨大变化，它是一个好的工具，就像计算机一样，帮助人们提升社会生产效率，了解事物真相，认识客观规律。重要的大数据可以帮助政府和企业进行科学决策，降低决策风险，加快进入智慧社会。

展开

大数据是什么，大数据能做什么

绿水缘

电梯上

大数据能做如下：来一、对自信息的理解。你发的每一张图片、每一个新闻、每一个广告，这些都是信息，你对这个信息的理解是大数据重要的领域。二、用户的理解。每个人的基本特征，你的潜在的特征，每个用户上网的习惯等等，这些都是对用户的理解。三、关系。关系才是我们的核心，信息与信息之间的关系，一条微博和另外一条微博之间的关系，一个广告和另外一个广告的关系。一条微博和一个视频之间的关系，这些在我们肉眼去看的时候是相对简单的。大数据专业术语：1、apache软件基金会(asf)提供了许多大数据的开源项目，目前有350多个项目。是专门为支持开源软件项目而办的一个非盈利性组织。在它所支持的apache项目与子项目中，所发行的软件产品都遵循apache许可证。2、apachemahoutmahout提供了一个用于机器学习和数据挖掘的预制算法库，也是创建算法的环境。换句话说，是一个机器学习的天堂环境3、apacheoozie在任何编程环境中，需要一些工作流程系统来以预定义的方式和定义的依赖关系来安排和运行工作。oozie提供的大数据工作以apachepig，maprece和hive等语言编写。

展开

数据科学与大数据技术专业有哪些学校

佛性

墨尔本

大数据的时代，很多学校都开设了大数据相3363393736关的专业和课程。在教育部公布的高校新增专业名单中，有32所高校成为第二批成功申请“数据科学与大数据技术”本科新专业的高校。从两次获批的”数据科学与大数据技术专业”名单中可以看出，该专业学制都为四年，授予工学学位或理学学位。第一批成功申请该专业的高校共有3所，为北京大学、对外经济贸易大学及中南大学，于2016年2月获得教育部批准。“大数据”专业学什么？方向一↗ 数据挖掘、数据分析&机器学习方向方向二↗大数据运维&云计算方向方向三↗Hadoop大数据开发方向精通任何方向之一者，均会 “ 前（钱）”途无量。三个方向中，大数据开发是基础。以Hadoop开发工程师为例，Hadoop入门月薪已经达到了 8K 以上，工作1年月薪可达到 1.2W 以上，具有2-3年工作经验的hadoop人才年薪可以达到30万—50万，一般需要大数据处理的公司基本上都是大公司，所以学习大数据专业也是进大公司的捷径！“大数据”专业毕业以后干什么？事实上，大数据工作者可以施展拳脚的领域非常广泛，从国防部、互联网创业公司到金融机构，到处需要大数据项目来做创新驱动。数据分析或数据处理的岗位报酬也非常丰厚，在硅谷，入门级的数据科学家的收入已经是6位数了(美元)。目前全国各类高校、高职院校已陆续开始围绕大数据专业建设展开研究并申报大数据专业。作为交叉型学科，大数据的相关课程涉及数学、统计和计算机等学科知识，“数据科学与大数据技术”专业也强调培养具有多学科交叉能力的大数据人才。该专业重点培养具有以下三方面素质的人才：一是理论性的，主要是对数据科学中模型的理解和运用；二是实践性的，主要是处理实际数据的能力；三是应用性的，主要是利用大数据的方法解决具体行业应用问题的能力。

展开

利用大数据进行的社会科学研究有哪些

尘归尘

乔豫

最典型的是，利用大数据进行流感的预测和预防

展开

数据科学与大数据技术

钞票飞

和同

数据科学与大数据技术专业，旨在培养具有大数据思维、运用大数据专思维及分析应用技术的高属层次大数据人才。掌握计算机理论和大数据处理技术，从大数据应用的三个主要层面(即数据管理、系统开发、海量数据分析与挖掘)系统地培养学生掌握大数据应用中的各种典型问题的解决办法，实际提升学生解决实际问题的能力，具有将领域知识与计算机技术和大数据技术融合、创新的能力，能够从事大数据研究和开发应用的高层次人才。

展开

大数据探究人类语言认知规律本质上是不是归纳法

师物

谁其比忧

　　33633634381 大数据兴起预示逗信息时代地进入新阶段　　1.1 看待大数据要有历史性的眼光　　信息时代是相对于农业和工业时代而言的一段相当长的时间。不同时代的生产要素和社会发展驱动力有明显差别。信息时代的标志性技术发明是数字计算机、集成电路、光纤通信和互联网（万维网）。尽管媒体上大量出现逗大数据时代地的说法，但大数据、云计算等新技术目前还没有出现与上述划时代的技术发明可媲美的技术突破，难以构成一个超越信息时代的新时代。信息时代可以分成若干阶段，大数据等新技术的应用标志着信息社会将进入一个新阶段。　　考察分析100年以上的历史长河可以发现，信息时代与工业时代的发展规律有许多相似之处。电气化时代与信息时代生产率的提高过程惊人地相似。都是经过20~30年扩散储备之后才有明显提高，分界线分别是1915年和1995年。笔者猜想，信息技术经过几十年的扩散储备后，21世纪的前30年可能是信息技术提高生产率的黄金时期。　　1.2 从逗信息时代新阶段地的高度认识逗大数据地　　中国已开始进入信息时代，但许多人的思想还停留在工业时代。经济和科技工作中出现的许多问题，其根源是对时代的认识不到位。18-19世纪中国落后挨打，根源是满清政府没有认识到时代变了，我们不能重犯历史性的错误。　　中央提出中国进入经济逗新常态地以后，媒体上有很多讨论，但多数是为经济增速降低做解释，很少有从时代改变的角度论述逗新常态地的文章。笔者认为，经济新常态意味着中国进入了以信息化带动新型工业化、城镇化和农业现代化的新阶段，是经济和社会管理的跃迁，不是权宜之计，更不是倒退。　　大数据、移动互联网、社交网络、云计算、物联网等新一代信息技术构成的IT架构逗第三平台地是信息社会进入新阶段的标志，对整个经济的转型有引领和带动作用。媒体上经常出现的互联网、创客、逗第二次机器革命地、逗工业4.0地等都与大数据和云计算有关。大数据和云计算是新常态下提高生产率的新杠杆，所谓创新驱动发展就是主要依靠信息技术促进生产率的提高。　　1.3 大数据可能是中国信息产业从跟踪走向引领的突破口　　中国的大数据企业已经有相当好的基础。全球十大互联网服务企业中国占有4席（阿里巴巴、腾讯、百度和京东），其他6个Top10 互联网服务企业全部是美国企业，欧洲和日本没有互联网企业进入Top10。这说明中国企业在基于大数据的互联网服务业务上已处于世界前列。在发展大数据技术上，我国有可能改变过去30年技术受制于人的局面，在大数据应用上中国有可能在全世界起到引领作用。　　但是，企业的规模走在世界前列并不表示我国在大数据技术上领先。实际上，国际上目前流行的大数据主流技术没有一项是我国开创的。开源社区和众包是发展大数据技术和产业的重要途径，但我们对开源社区的贡献很小，在全球近万名社区核心志愿者中，我国可能不到200名。我们要吸取过去基础研究为企业提供核心技术不够的教训，加强大数据基础研究和前瞻技术研究，努力攻克大数据核心和关键技术。　　2 理解大数据需要上升到文化和认识论的高度　　2.1 数据文化是一种先进文化　　数据文化的本质是尊重客观世界的实事求是精神，数据就是事实。重视数据就是强调用事实说话、按理性思维的科学精神。中国人的传统习惯是定性思维而不是定量思维。目前许多城市在开展政府数据开放共享工作，但是发现多数老百姓对政府要开放的数据并不感兴趣。要让大数据走上健康的发展轨道，首先要大力弘扬数据文化。本文讲的数据文化不只是大数据用于文艺、出版等文化产业，而是指全民的数据意识。全社会应认识到：信息化的核心是数据，只有政府和大众都关注数据时，才能真正理解信息化的实质；数据是一种新的生产要素，大数据的利用可以改变资本和土地等传统要素在经济中的权重。　　有人将逗上帝与数据共舞地归纳为美国文化的特点之一，说的是美国人既有对神的诚意，又有通过数据求真的理性。美国从镀金时代到进步主义时期完成了数据文化的思维转变，南北战争之后人口普查的方法被应用到很多领域，形成了数据预测分析的思维方式。近百年来美国和西方各国的现代化与数据文化的传播渗透有密切关系，我国要实现现代化也必须强调数据文化。　　提高数据意识的关键是要理解大数据的战略意义。数据是与物质、能源一样重要的战略资源，数据的采集和分析涉及每一个行业，是带有全局性和战略性的技术。从硬技术到软技术的转变是当今全球性的技术发展趋势，而从数据中发现价值的技术正是最有活力的软技术，数据技术与数据产业的落后将使我们像错过工业革命机会一样延误一个时代。　　2.2 理解大数据需要有正确的认识论　　历史上科学研究是从逻辑演绎开始的，欧几里得几何的所有定理可从几条公理推导出来。从伽利略和牛顿开始，科学研究更加重视自然观察和实验观察，在观察基础上通过归纳方法提炼出科学理论，逗科学始于观察地成为科学研究和认识论的主流。经验论和唯理论这两大流派都对科学的发展做出过重大贡献，但也暴露出明显的问题，甚至走入极端。理性主义走向极端就成为康德所批判的独断主义，经验主义走入极端就变成怀疑论和不可知论。　　20世纪30年代，德国哲学家波普尔提出了被后人称为逗证伪主义地的认识论观点，他认为科学理论不能用归纳法证实，只能被试验发现的反例逗证伪地，因而他否定科学始于观察，提出逗科学始于问题地的著名观点[3]。证伪主义有其局限性，如果严格遵守证伪法则，万有引力定律、原子论等重要理论都可能被早期的所谓反例扼杀。但逗科学始于问题地的观点对当前大数据技术的发展有指导意义。　　大数据的兴起引发了新的科学研究模式：逗科学始于数据地。从认识论的角度看，大数据分析方法与逗科学始于观察地的经验论较为接近，但我们要牢记历史的教训，避免滑入否定理论作用的经验主义泥坑。在强调逗相关性地的时候不要怀疑逗因果性地的存在；在宣称大数据的客观性、中立性的时候，不要忘了不管数据的规模如何，大数据总会受制于自身的局限性和人的偏见。不要相信这样的预言：逗采用大数据挖掘，你不需要对数据提出任何问题，数据就会自动产生知识地。面对像大海一样的巨量数据，从事数据挖掘的科技人员最大的困惑是，我们想捞的逗针地是什么看这海里究竟有没有逗针地看也就是说，我们需要知道要解决的问题是什么。从这个意义上讲，逗科学始于数据地与逗科学始于问题地应有机地结合起来。　　对逗原因地的追求是科学发展的永恒动力。但是，原因是追求不完的，人类在有限的时间内不可能找到逗终极真理地。在科学的探索途中，人们往往用逗这是客观规律地解释世界，并不立即为什么有这样的客观规律。也就是说，传统科学并非只追寻因果性，也可以用客观规律作为结论。大数据研究的结果多半是一些新的知识或新的模型，这些知识和模型也可以用来预测未来，可以认为是一类局部性的客观规律。科学史上通过小数据模型发现一般性规律的例子不少，比如开普勒归纳的天体运动规律等；而大数据模型多半是发现一些特殊性的规律。物理学中的定律一般具有必然性，但大数据模型不一定具有必然性，也不一定具有可演绎性。大数据研究的对象往往是人的心理和社会，在知识阶梯上位于较高层，其自然边界是模糊的，但有更多的实践特征。大数据研究者更重视知行合一，相信实践论。大数据认识论有许多与传统认识论不同的特点，我们不能因其特点不同就否定大数据方法的科学性。大数据研究挑战了传统认识论对因果性的偏爱，用数据规律补充了单一的因果规律，实现了唯理论和经验论的数据化统一，一种全新的大数据认识论正在形成。　　3 正确认识大数据的价值和效益　　3.1 大数据的价值主要体现为它的驱动效应　　人们总是期望从大数据中挖掘出意想不到的逗大价值地。实际上大数据的价值主要体现在它的驱动效应，即带动有关的科研和产业发展，提高各行各业通过数据分析解决困难问题和增值的能力。大数据对经济的贡献并不完全反映在大数据公司的直接收入上，应考虑对其他行业效率和质量提高的贡献。大数据是典型的通用技术，理解通用技术要采用逗蜜蜂模型地：蜜蜂的效益主要不是自己酿的蜂蜜，而是蜜蜂传粉对农业的贡献。　　电子计算机的创始人之一冯·诺依曼曾指出：逗在每一门科学中，当通过研究那些与终极目标相比颇为朴实的问题，发展出一些可以不断加以推广的方法时，这门学科就得到了巨大的进展。地我们不必天天期盼奇迹出现，多做一些逗颇为朴实地的事情，实际的进步就在扎扎实实的努力之中。媒体喜欢宣传一些令人惊奇的大数据成功案例，对这些案例我们应保持清醒的头脑。据Intel中国研究院首席工程师吴甘沙在一次报告中透露，所谓逗啤酒加尿布地的数据挖掘经典案例，其实是Teradata公司一位经理编出来的逗故事地，历史上并没有发生过[4]。即使有这个案例，也不说明大数据分析本身有什么神奇，大数据中看起来毫不相关的两件事同时或相继出现的现象比比皆是，关键是人的分析推理找出为什么两件事物同时或相继出现，找对了理由才是新知识或新发现的规律，相关性本身并没有多大价值。　　有一个家喻户晓的寓言可以从一个角度说明大数据的价值：一位老农民临终前告诉他的3个儿子，他在他家的地中埋藏了一罐金子，但没有讲埋在哪里。　　他的儿子们把他家所有的地都深挖了一遍，没有挖到金子，但由于深挖了土地，从此庄稼收成特别好。数据收集、分析的能力提高了，即使没有发现什么普适的规律或令人完全想不到的新知识，大数据的价值也已逐步体现。　　3.2 大数据的力量来自逗大成智慧地　　每一种数据来源都有一定的局限性和片面性，只有融合、集成各方面的原始数据，才能反映事物的全貌。事物的本质和规律隐藏在各种原始数据的相互关联之中。不同的数据可能描述同一实体，但角度不同。对同一个问题，不同的数据能提供互补信息，可对问题有更深入的理解。因此在大数据分析中，汇集尽量多种来源的数据是关键。　　数据科学是数学（统计、代数、拓扑等）、计算机科学、基础科学和各种应用科学融合的科学，类似钱学森先生提出的逗大成智慧学地[5]。钱老指出：逗必集大成，才能得智慧地。大数据能不能出智慧，关键在于对多种数据源的集成和融合。IEEE计算机学会最近发布了2014年的计算机技术发展趋势预测报告，重点强调逗无缝智慧（seamless intelligence）地。发展大数据的目标就是要获得协同融合的逗无缝智慧地。单靠一种数据源，即使数据规模很大，也可能出现逗瞎子摸象地一样的片面性。数据的开放共享不是锦上添花的工作，而是决定大数据成败的必要前提。　　大数据研究和应用要改变过去各部门和各学科相互分割、独立发展的传统思路，重点不是支持单项技术和单个方法的发展，而是强调不同部门、不同学科的协作。数据科学不是垂直的逗烟囱地，而是像环境、能源科学一样的横向集成科学。　　3.3 大数据远景灿烂，但近期不能期望太高　　交流电问世时主要用作照明，根本想象不到今天无处不在的应用。大数据技术也一样，将来一定会产生许多现在想不到的应用。我们不必担心大数据的未来，但近期要非常务实地工作。人们往往对近期的发展估计过高，而对长期的发展估计不足。Gartner公司预测，大数据技术要在5~10年后才会成为较普遍采用的主流技术，对发展大数据技术要有足够的耐心。　　大数据与其他信息技术一样，在一段时间内遵循指数发展规律。指数发展的特点是，从一段历史时期衡量（至少30年），前期发展比较慢，经过相当长时间（可能需要20年以上）的积累，会出现一个拐点，过了拐点以后，就会出现爆炸式的增长。但任何技术都不会永远保持逗指数性地增长，一般而言，高技术发展遵循Gartner公司描述的技术成熟度曲线（hype cycle），最后可能进入良性发展的稳定状态或者走向消亡。　　需要采用大数据技术来解决的问题往往都是十分复杂的问题，比如社会计算、生命科学、脑科学等，这些问题绝不是几代人的努力就可以解决的。宇宙经过百亿年的演化，才出现生物和人类，其复杂和巧妙堪称绝伦，不要指望在我们这一代人手中就能彻底揭开其奥妙。展望数百万年甚至更长远的未来，大数据技术只是科学技术发展长河中的一朵浪花，对10~20年大数据研究可能取得的科学成就不能抱有不切实际的幻想。　　4 从复杂性的角度看大数据研究和应用面临的挑战　　大数据技术和人类探索复杂性的努力有密切关系。20世纪70年代，新三论（耗散结构论、协同论、突变论）的兴起对几百年来贯穿科学技术研究的还原论发起了挑战。1984年盖尔曼等3位诺贝尔奖得主成立以研究复杂性为主的圣菲研究所，提出超越还原论的口号，在科技界掀起了一场复杂性科学运动。虽然雷声很大，但30年来并未取得预期的效果，其原因之一可能是当时还没有出现解决复杂性的技术。　　集成电路、计算机与通信技术的发展大大增强了人类研究和处理复杂问题的能力。大数据技术将复杂性科学的新思想发扬光大，可能使复杂性科学得以落地。复杂性科学是大数据技术的科学基础，大数据方法可以看作复杂性科学的技术实现。大数据方法为还原论与整体论的辩证统一提供了技术实现途径。大数据研究要从复杂性研究中吸取营养，从事数据科学研究的学者不但要了解20世纪的逗新三论地，可能还要学习与超循环、混沌、分形和元胞自动机等理论有关的知识，扩大自己的视野，加深对大数据机理的理解。　　大数据技术还不成熟，面对海量、异构、动态变化的数据，传统的数据处理和分析技术难以应对，现有的数据处理系统实现大数据应用的效率较低，成本和能耗较大，而且难以扩展。这些挑战大多来自数据本身的复杂性、计算的复杂性和信息系统的复杂性。　　4.1 数据复杂性引起的挑战　　图文检索、主题发现、语义分析、情感分析等数据分析工作十分困难，其原因是大数据涉及复杂的类型、复杂的结构和复杂的模式，数据本身具有很高的复杂性。目前，人们对大数据背后的物理意义缺乏理解，对数据之间的关联规律认识不足，对大数据的复杂性和计算复杂性的内在联系也缺乏深刻理解，领域知识的缺乏制约了人们对大数据模型的发现和高效计算方法的设计。形式化或定量化地描述大数据复杂性的本质特征及度量指标，需要深入研究数据复杂性的内在机理。人脑的复杂性主要体现在千万亿级的树突和轴突的链接，大数据的复杂性主要也体现在数据之间的相互关联。理解数据之间关联的奥秘可能是揭示微观到宏观逗涌现地规律的突破口。大数据复杂性规律的研究有助于理解大数据复杂模式的本质特征和生成机理，从而简化大数据的表征，获取更好的知识抽象。为此，需要建立多模态关联关系下的数据分布理论和模型，理清数据复杂度和计算复杂度之间的内在联系，奠定大数据计算的理论基础。　　4.2 计算复杂性引起的挑战　　大数据计算不能像处理小样本数据集那样做全局数据的统计分析和迭代计算，在分析大数据时，需要重新审视和研究它的可计算性、计算复杂性和求解算法。大数据样本量巨大，内在关联密切而复杂，价值密度分布极不均衡，这些特征对建立大数据计算范式提出了挑战。对于PB级的数据，即使只有线性复杂性的计算也难以实现，而且，由于数据分布的稀疏性，可能做了许多无效计算。　　传统的计算复杂度是指某个问题求解时需要的时间空间与问题规模的函数关系，所谓具有多项式复杂性的算法是指当问题的规模增大时，计算时间和空间的增长速度在可容忍的范围内。传统科学计算关注的重点是，针对给定规模的问题，如何逗算得快地。而在大数据应用中，尤其是流式计算中，往往对数据处理和分析的时间、空间有明确限制，比如网络服务如果回应时间超过几秒甚至几毫秒，就会丢失许多用户。大数据应用本质上是在给定的时间、空间限制下，如何逗算得多地。从逗算得快地到逗算得多地，考虑计算复杂性的思维逻辑有很大的转变。所谓逗算得多地并不是计算的数据量越大越好，需要探索从足够多的数据，到刚刚好的数据，再到有价值的数据的按需约简方法。　　基于大数据求解困难问题的一条思路是放弃通用解，针对特殊的限制条件求具体问题的解。人类的认知问题一般都是NP难问题，但只要数据充分多，在限制条件下可以找到十分满意的解，近几年自动驾驶汽车取得重大进展就是很好的案例。为了降低计算量，需要研究基于自举和采样的局部计算和近似方法，提出不依赖于全量数据的新型算法理论，研究适应大数据的非确定性算法等理论。　　4.3 系统复杂性引起的挑战　　大数据对计算机系统的运行效率和能耗提出了苛刻要求，大数据处理系统的效能评价与优化问题具有挑战性，不但要求理清大数据的计算复杂性与系统效率、能耗间的关系，还要综合度量系统的吞吐率、并行处理能力、作业计算精度、作业单位能耗等多种效能因素。针对大数据的价值稀疏性和访问弱局部性的特点，需要研究大数据的分布式存储和处理架构。　　大数据应用涉及几乎所有的领域，大数据的优势是能在长尾应用中发现稀疏而珍贵的价值，但一种优化的计算机系统结构很难适应各种不同的需求，碎片化的应用大大增加了信息系统的复杂性，像昆虫种类一样多（500多万种）的大数据和物联网应用如何形成手机一样的巨大市场，这就是所谓逗昆虫纲悖论地[6]。为了化解计算机系统的复杂性，需要研究异构计算系统和可塑计算技术。　　大数据应用中，计算机系统的负载发生了本质性变化，计算机系统结构需要革命性的重构。信息系统需要从数据围着处理器转改变为处理能力围着数据转，关注的重点不是数据加工，而是数据的搬运；系统结构设计的出发点要从重视单任务的完成时间转变到提高系统吞吐率和并行处理能力，并发执行的规模要提高到10亿级以上。构建以数据为中心的计算系统的基本思路是从根本上消除不必要的数据流动，必要的数据搬运也应由逗大象搬木头地转变为逗蚂蚁搬大米地。　　5 发展大数据应避免的误区　　5.1 不要一味追求逗数据规模大地　　大数据主要难点不是数据量大，而是数据类型多样、要求及时回应和原始数据真假难辨。现有数据库软件解决不了非结构化数据，要重视数据融合、数据格式的标准化和数据的互操作。采集的数据往往质量不高是大数据的特点之一，但尽可能提高原始数据的质量仍然值得重视。脑科学研究的最大问题就是采集的数据可信度差，基于可信度很差的数据难以分析出有价值的结果。　　一味追求数据规模大不仅会造成浪费，而且效果未必很好。多个来源的小数据的集成融合可能挖掘出单一来源大数据得不到的大价值。应多在数据的融合技术上下功夫，重视数据的开放与共享。所谓数据规模大与应用领域有密切关系，有些领域几个PB的数据未必算大，有些领域可能几十TB已经是很大的规模。　　发展大数据不能无止境地追求逗更大、更多、更快地，要走低成本、低能耗、惠及大众、公正法治的良性发展道路，要像现在治理环境污染一样，及早关注大数据可能带来的逗污染地和侵犯隐私等各种弊端。　　5.2 不要逗技术驱动地，要逗应用为先地　　新的信息技术层出不穷，信息领域不断冒出新概念、新名词，估计继逗大数据地以后，逗认知计算地、逗可穿戴设备地、逗机器人地等新技术又会进入炒作高峰。我们习惯于跟随国外的热潮，往往不自觉地跟着技术潮流走，最容易走上逗技术驱动地的道路。实际上发展信息技术的目的是为人服务，检验一切技术的唯一标准是应用。我国发展大数据产业一定要坚持逗应用为先地的发展战略，坚持应用牵引的技术路线。技术有限，应用无限。各地发展云计算和大数据，一定要通过政策和各种措施调动应用部门和创新企业的积极性，通过跨界的组合创新开拓新的应用，从应用中找出路。　　5.3 不能抛弃逗小数据地方法　　流行的逗大数据地定义是：无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集。这是用不能胜任的技术定义问题，可能导致认识的误区。按照这种定义，人们可能只会重视目前解决不了的问题，如同走路的人想踩着自己身前的影子。其实，目前各行各业碰到的数据处理多数还是逗小数据地问题。我们应重视实际碰到的问题，不管是大数据还是小数据。　　统计学家们花了200多年，总结出认知数据过程中的种种陷阱，这些陷阱不会随着数据量的增大而自动填平。大数据中有大量的小数据问题，大数据采集同样会犯小数据采集一样的统计偏差。Google公司的流感预测这两年失灵，就是由于搜索推荐等人为的干预造成统计误差。　　大数据界流行一种看法：大数据不需要分析因果关系、不需要采样、不需要精确数据。这种观念不能绝对化，实际工作中要逻辑演绎和归纳相结合、白盒与黑盒研究相结合、大数据方法与小数据方法相结合。　　5.4 要高度关注构建大数据平台的成本　　目前全国各地都在建设大数据中心，吕梁山下都建立了容量达2 PB以上的数据处理中心，许多城市公安部门要求存储3个月以上的高清监控录像。这些系统的成本都非常高。数据挖掘的价值是用成本换来的，不能不计成本，盲目建设大数据系统。什么数据需要保存，要保存多少时间，应当根据可能的价值和所需的成本来决定。大数据系统技术还在研究之中，美国的E级超级计算机系统要求能耗降低1 000倍，计划到2024年才能研制出来，用现在的技术构建的巨型系统能耗极高。　　我们不要攀比大数据系统的规模，而是要比实际应用效果，比完成同样的事消耗更少的资源和能量。先抓老百姓最需要的大数据应用，因地制宜发展大数据。发展大数据与实现信息化的策略一样：目标要远大、起步要精准、发展要快速。

展开

大数据技术的发展趋势有哪些

法与理

花烛错

对2016年大数据发展展望这个展望大数据专家委这是做的第四次，从之前2012年底做的2013年的展望，即会做下一年的预测，这个预测是调研方式就是大数据专家委一百多位委员内部进行这样的一个观点征集、汇总，最后进行投票和去年一样，同时邀请中国大数据产业联盟的会员参与到最后的投票环节，今年总共投票的专家是116位，从这116位专家投票中形成了下述的结果。根据今年大数据专家委列出的2016大数据产业技术发展的十大趋势，从这里面我们简单解读为他出现了这样四个重点的关键字，一个是民生相关的应用，因为应用很多，应用驱动大数据，因此民生相关的大数据可能会得到更快的发展，第二就是多样性和融合性，不管是技术、产业等等各方面会出现多样融合的状况，另外第三个就是政策拉动，第四总是呼吁各个层面出现多样的生态，简单对这十各方面稍微做一个解释。第一，可视化技术。作为汇总整理的时候这也是给了工作组一个很大的意外，做了这样一个解读，我们认为可视化作为技术形态能够排到第一，其实背后隐藏着大数据的贫民化。普通老百姓和常规的决策者能够更好的理解大数据的效果和价值，所以能够摆在这么重的位置，不仅仅可视化的形态，也包括可视化的分析，这是排在第一的趋势。第二，多学科融合。大家对学科的发展非常关注，预测排在第二位是多学科融合，大家认为数据科学的雏形已经出现了，从表现形式来看，很多相关的数据，科学的研究院，专门的实验室，也可以看到这样的学科逐渐的完备，可能会逐渐的出现，当然本身确实也是交叉性的学科，是多学科融合的产物，所以从事大数据研究不仅仅是计算机领域的科学家，也包括数学等等方面的科学家参与到整个大数据前沿的研究中。第三，大数据的安全和隐私持续受到关注。从现在大数据的发展情况来说，应该说针对大数据的威胁和大数据所产生的副作用，以及大数据发展中的障碍会逐渐成为大数据领域所要关注的点。针对大数据的攻击现在没有大规模的报道，但是隐忧已经令大家担忧。隐私大数据所带来的副作用，原来的隐私我们接受的程度，有了大数据之后隐私接受程度发生了很大的变化。由于大家对大数据的安全等等相关的问题的担忧阻碍我们在大数据的发展上的投入，这也是阻碍大数据发展的问题。大数据是信息技copy术与专业技术、信息技术产业与各行业领域紧密融合的典型领域，有着旺盛的应用需求、广阔的应用前景。为把握这一新兴领域带来的新机遇，需要不断跟踪研究大数据，不断提升对大数据的认知和理解，坚持技术创新与应用创新的协同共进，加快经济社会各领域的大数据开发与利用，推动国家、行业、企业对于数据的应用需求和应用水平进入新的阶段。

展开

首页

考研

考博

院校选择

专业选择

研究生动态

研究生题库

科学研究大数据