欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
科学研究中出现大量数据如何处理?高能物理提供了新思路大好人

科学研究中出现大量数据如何处理?高能物理提供了新思路

出品:“科学与中国”院士专家巡讲团制作:中国科普博览监制:中国科学院部工作局 中国科学院计算机网络信息中心高能物理的主要目标是探索物质的微观结构以及宇宙起源等的自然规律。比如为什么物质有质量?反物质在哪里?宇宙大爆炸刚发生时的物质形态是什么样的?那什么是大数据呢?不同的领域对大数据的定义不相同,一般来说,我们把数据量极大,内容与格式极复杂,速度产生极快的数据定义为大数据。在高能物理方面,我们面临着很多与数据相关的挑战。第一个挑战就是数据获取,以ATLAS实验为例,探测器应该每秒采集4000万次数据,在这样的探测器中有几亿个感应器,而相关数据都应该被记录,因此每秒钟的时间我们需要采集1PB的数据,这难以实现。第二个挑战就是数据储存,目前我们的储存设备的容量不断增加,但是它的可靠、可管理性,速度、吞吐能力未必随之增加。第三个挑战是数据共享,共享技术的互操作性,体系结构,统一的标准等等都达不到要求,数据安全保护以及跟踪管理仍然是一项巨大的挑战,同时,跨领域数据模型的统一,信息及知识库的共享也面临困难。第四个挑战是数据分析,我们知道CPU的时钟频率已经不再增长,但是核数在继续增加,计算模型、数学、统计和算法技术需要重新建模,这对数据分析来说是一个很大的问题。第五个挑战是可视化,如何尽量减少计算系统与外部数据的通讯,只有这样,才能以最快的速度把分析结果的可视化展现出来。第六个挑战是数据的长期保存,数据的丢失以及技术的更新都是需要解决的问题。现代科学研究越来越数据驱动,大数据已经来临,不管怎么样,我们需要新的思路与技术来应对挑战。高能物理为我们提供了经验与教训,能够帮助科学家和计算机技术专家找到应对的方法。08:57“科学与中国”院士专家巡讲活动是中国科学院学部发起,由中科院、中宣部、教育部、科技部、工程院、中国科协共同主办的高层次公益性科普活动。精彩内容关注“科学与中国”官方网站(cs.kepu.cn)。中国科学院学部工作局为网站委托单位,中国科普博览为网络传播合作伙伴,中国科学院计算机网络信息中心提供技术支持。

苟简

科技发展 关于大数据你都知道什么?

随着时代进步和科技发展,大数据逐步为人类创造出更多的价值。你知道大数据的概念是什么吗?它又有怎样的特点呢?大数据又称巨量数据、海量数据,是由数量巨大、结构复杂、类型众多的数据构成的数据集合,基于云计算的数据处理与应用模式,通过数据的集成共享,交叉复用形成的智力资源和知识服务能力。也有相关机构对其有所定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。换言之,大数据就是在浩如烟海的信息中,利用数据分析的技术,对冗杂无序的数据进行分析和整理,并迅速筛选出有价值的信息。2010年10月,麦肯锡在《大数据:创新竞争和提高生产率的下一个新领域》的研究报告里正式使用“大数据”一词,并最早提出“大数据”时代已经到来。简单地说,“大数据”即“海量数据”+复杂类型的数据,麦肯锡认为大数据就是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。大数据有4个方面的典型特征:数据体量巨大、数据类型繁多、价值密度低、处理速度快。大数据可以将数据分析和整合的结果应用于为企业提供决策支持,也可以将分析与建模的成果转化为具体的应用集成到业务流程中,为业务直接提供数据的支持。大数据的应用一般分为两类。一类是嵌入业务流程的数据辅助功能,如我们在网络购物时,经常会有“相关推荐”“猜你喜欢”等购物推荐,这就是通过数据分析与建模,分析我们的购物喜好,进行数据整合和筛选,最终得出推荐给我们的内容。另一类则是以数据为驱动的业务场景,如我们在出行前进行相关准备时,经常会在网络上对住宿,门票,车票等进行比价,这就是在采集各电商网站报价的基础上,利用大数据对同一产品进行识别和排序,从而得到最优方案。提到大数据的发展,我们不得不提到一个概念——大数据的生命周期。事实上,它指的是某个集合的大数据从产生和获取到销毁的过程。也就是企业在实际运用大数据的过程中,在大数据战略的基础上,定义大数据范围,确定大数据采集、存储、整合、呈现与使用、分析与应用、归档与销毁的流程,并根据数据和应用的状况,对该流程进行持续优化。随着移动互联网、物联网、云计算技术的迅速发展,大数据技术也越来越受人们关注。本作品为“科普中国-科学原理一点通”原创,转载时务请注明出处。

穷通

整合科研大数据打造智能知识服务平台 中科院文献情报中心“慧”系列产品发布

2018年12月27日上午,中国科学院文献情报中心主办的“慧”系列智能知识服务产品发布会在京举行。发布会现场会上,中国科学院副院长张涛院士表示,随着信息时代的到来,数据信息爆炸式增长,数据密集型科研范式成为重要的科研范式,科研人员对科研信息与科研交互的需求越发强烈。特别是面向学科多元交叉,对从基础研究到应用研究再到市场研发整个创新价值链的文献情报知识梳理充满渴求,并且科技创新研发活动也面临海量数据分散孤立、知识价值难以判断的问题,这意味着科技信息服务手段需要创新,知识服务的内涵需要拓展。“慧”系列智能知识服务产品是在中科院支持下为科学家研发的智能知识服务产品,是在新型知识发现与科学研究模式下,在中国科学院文献情报中心的“科技大数据平台”基础上研发的。该系列产品面向科学家群体,突破了“数据计算型”的知识发现与情报分析范式,解决因科技大数据分散孤立不能整合计算、释放知识价值的问题;解决因科学家收集数据、项目填报重复繁杂难以提升科研工作效率的问题;解决传统数据服务架构弱化用户参与、不能促进数据流动的问题。中国科学院文献情报中心主任刘会洲称,“慧”系列产品从“智能的知识分析、精准的知识发现、及时的前沿跟踪、主动的知识递送、开放的学术交流”五个方面,阐述了“智能、精准、及时、主动、开放”服务理念。以“慧眼”与“慧科研”为代表的“慧”系列智能知识服务产品,正是立足中国科学院科技事业发展的新要求,面向科研人员对知识服务的新需要,依托知识图谱与深度学习技术,实现了海量科技大数据在广度与深度上的计算组织,实现了集成文献检索、精准推送、智能分析、学术交流、资源共享、科研管理等贯穿“科研、交流、管理”全链条的开放学术生态系统。国家科技图书文献中心(NSTL)主任彭以祺表示,这样的服务模式和产品,对满足科技创新引领知识服务的转型和升级具有重要意义,对我国科技文献事业的发展起到了推动作用。科技大数据是国家信息安全的重要组成部分,特别在当前复杂的国际形势下,科技大数据的保障对科研工作有不可替代的作用。在当前这个以数据为创新驱动的新环境中,中国科学院文献情报中心作为国家级的科技文献资源保障机构,很好地抓住了时代机遇,率先建成科技大数据平台,将重要基础性战略资源汇聚协同起来,成为推动科学发现和知识创新的新引擎。(文/谷雨)

体性

大数据应用于社会科学研究的价值与悖论

随着云计算、物联网、移动互联网的广泛应用,人类社会真正进入了大数据时代。通过大数据的运用,我们对人类社会获得了更为广泛和深入的认知,进而通过更为客观和精确的方法,对人类社会进行更加科学和有效的探索和研究。大数据对当前社会科学研究产生了深刻的影响,使社会科学研究的视野和领域发生了革命性的变化。尽管大数据这一概念提出很早,但从为社会科学界熟知,到迅速转向反思与批判,却仅仅经历了短短几年的时间。为什么社会科学研究能够迅速对大数据做出响应?大数据在社会科学研究中有哪些应用?大数据应用于社会科学研究体现出哪一些价值?而它在应用中又有哪些悖论使其不能解决社会科学研究所面临的问题?本文试对以上问题进行分析。一、社会科学为何对大数据迅速响应社会科学研究对大数据的快速响应主要包含了两个层面的问题:一是从普遍意义上讲,大数据为本身具有数据需求与实证传统的社会学科研究提供了更为丰富的数据基础;二是从特殊意义上讲,大数据为社会科学的各个研究领域带来了新的视野和新的研究方法,提供了更为广阔的跨学科、跨领域研究的可能。(一)从普遍意义上讲,社会科学研究在研究对象、研究方法、文献资料、技术支撑等方面需要大数据的迅速融入社会科学研究很重要的一点是需要数据基础,而大数据无疑在这一方面具有划时代的意义,这也是社会科学研究迅速对大数据应用做出响应的基本原因。这主要基于四个方面:一是从研究对象上讲,当前纷繁复杂的社会现象越来越具有编码数据化的倾向。随着计算机及其相关技术,如数据编码技术、传感器技术、模式识别技术以及计算机仿生学、人工智能的发展,在大数据时代,事物本身、社会关系乃至人本身的自然状态和社会活动都存在进行编码的可能,而人类信息一旦被编码,则可以通过模数转换进行数字化记录,形成计算机可以直接处理的数据信息。二是从研究方法上讲,本身基于数理统计方法的社会科学研究亟需大数据的滋养与丰富。三是从文献资料上讲,大数据使社会科学研究的信息获取变得迅速而便捷。基于社会科学研究对象的编码数据化趋势,可供研究的文献资料发展到了极大丰富的阶段。四是从技术支持上讲,大数据为社会科学研究提供了亟需的技术支撑。正如美国国家科研委员会在2002年的报告中所称:“数字技术和网络的飞速发展从根本上改变和推进了数据在科学及其他各个领域中的生成、分发、管理和使用方式。”信息技术促进学术研究转变的最新发展就是大数据,它使得数据运用和计算方法成为社会科学的必需品。(二)从特殊意义上讲,社会科学的各个研究领域需要大数据运用带来的新的视野和新的研究方法,并在跨学科、跨领域研究中有所拓展在具备前述研究基础的条件下,社会科学各研究迅速地对大数据应用做出了响应。从当前社会科学研究的大数据应用状况来看,其影响不仅波及社会学科学科及研究领域,更是由此提升了跨学科研究的质量及促进了新兴研究领域生长。一方面,大数据促进了社会科学研究领域的新的视野和新的方法。2012年《华盛顿邮报》研发了新闻核查机器人——truthteller(吐真者),用于新闻事实的鉴别;2014年《洛杉矶时报》和美联社wordsmith公司开始使用新闻撰写机器人,直接用于新闻文本生产;《纽约时报》使用新闻编辑机器人——Blossom(花开),英国《卫报》开启总编辑机器人实验——纸媒测试计划,用以挑选新闻热点,进而生产“一张完全由算法生成的报纸”。国内应用也集中在机器人写作,如腾讯的Dreamwriter、新华社的“快笔小新”等;机器人挑选新闻,如新闻客户端以大数据算法为基础分析热点并结合用户习惯,完成新闻信息的自动选择和发布。可以说业界大数据运用的风起云涌,促使新闻学研究快速地转向大数据应用领域,以机器人新闻研究为例,2016年发表文章的数量超过之前的总和。另一方面,大数据促使社会科学研究向跨学科、跨领域的拓展对跨学科研究以及新兴研究领域的生长起到了非常积极的作用,在传统领域里难以进一步沟通或协作的学科之间有了更好的交流与对话的平台和基础,如大数据背景下新闻传播学的跨学科发展。2015年中国人民大学喻国明教授出版了《新闻传播的大数据时代》一书,该书阐释了大数据时代的新闻内容生产、广告整合营销以及舆情信息的抓取与分析等。其中,跨新闻学、传播学、政治学、管理学等学科的舆情分析与社会治理这一研究领域,已经成为世界关注的研究热点,而正是大数据的应用——舆情信息的抓取、提炼、分析,成为这一研究领域各学科共通的基础。二、大数据应用对于社会科学研究的价值一般认为,大数据具有4V特征,即:3V+1V——大量(Volume)、多样(Variety)、高速(Ve-locity)+价值(Value)。这四个特征的前三者为客观性特征,来自于埃德·顿姆比尔,是需要通过各类计算机工具进行获取,并可以进行客观性描述的。而第四个特征——国际数据公司IDC(InternationalDataCorporation)后来添加的特征——价值是最重要最核心的,它也是大数据在社会科学研究中应用的最终归宿。(一)信息获取方面,研究者可以高速地获取更为广泛的信息、拥有更为广阔的视域传统的社会科学研究,其数据采集主要来源于田野调查和采访,但由于搜集资料方法的可操作性和调查成本等方面的制约,能够获得的数据至少在数量上非常有限。随着计算机的普及,特别是网络技术的发展,社会科学研究所获取的数据大量增加,而且各类专业数据库也能为社科研究带来必要的、专业化的数据补充,但数据的准确性和全面性依旧不尽人意。《大数据》一书的联合作者,牛津大学互联网中心的维克托迈尔·舍恩伯格教授,曾说他最喜欢的对于大数据集合的定义是“N=所有”,因为有了整个社会和所有人的数据,所以数据不再需要以抽样的方法获得。虽然从目前大数据采集的现实情况看,舍恩伯教授的定义还是一个美好的愿望,但当前数据量的增长却是不争的事实。美国学者莫里斯·克莱因曾说“一个时代的特征在很大程度上与该时代的数学密切相关,数学随文明的兴衰而枯荣”,这句话用在当前的大数据爆炸性的增长方面最好不过了。大数据是社会信息的集合。社科研究者、社会管理者、社会生产者之间的相互交织,大数据渗透进入了各行各业。而社科研究本身是以社会为研究对象的科学,社会的动向就是研究者开展研究工作的方向。目前,大数据广泛应用在零售、电信、金融以及教育、医疗、交通等行业,并已经创造出了巨大的经济价值,这些价值也正在转化为人类了解世界甚至于认识自身的基础信息,使社会科学的研究者拥有更为广阔的视域。(二)问题挖掘方面,研究者对研究问题能够快速响应和深度挖掘如前所述,大数据最核心的意义在于价值的追求,而这一追求需要在一定数据基础上进行问题挖掘才能得以实现。大数据获得应用之后,社科研究的研究过程发生了变化或是有了另外一种逆向选择。在传统的社会科学研究中,实证研究具有自上而下的决策和有限数据验证的特征,其过程主要为:研究者通过理论探索建构研究的概念模型和结构模型,在此基础上提出假设,之后通过所设定的研究方法采用适合的搜集资料的手段采集数据,最后通过数据分析来验证假设。这一过程中,研究者本人的研究水平,包括其经验、见识以及对研究问题的认知和判断,决定了研究本身的方向和深度;被研究者也只能囿于研究者想研究的问题,而使最终的数据局限于研究者的研究范畴之内。从目前的实际情况看,社会科学界运用大数据进行社会研究主要包括数据库的应用和互联网信息分析,另外还有其他一些如地理信息系统之类的辅助研究。我们发现,社会科学研究和互联网企业在大数据应用方面没有本质的差异,关键是研究的问题不同,企业关注的是产品营销、品牌形象、位置服务等,而社会科学研究关注的是社会治理、信息传播、人与社会的关系等社会科学核心话题。(三)研究方法方面,大数据使研究者的研究方法更为丰富2009年微软公司的研究人员托尼等人共同写作了“TheFourthParadigmData-IntensiveScientificDiscovery”,他们认为,实证的、分析的、模拟的方法能够用来回答很多问题,但数据密集驱动的大数据的出现,使人类的科学研究将会被计算思维重塑,可称之为第四范式。从社会科学研究的角度来看,国内学者徐磊认为,“传统的技术条件只能使人们获得小样本、静态的个体或社会关系的数据,不得不简化社会研究对象的特征,人们更多地依赖假设、直觉和经验解释社会问题,其准确性和可信度自然大打折扣……纠结了100多年的社会科学研究方法的问题,将彻底归并到更大的复杂系统认知的问题集合中”。如香港城市大学的祝建华教授在认为大数据研究可以放弃研究模型的探寻,也无需研究的假设便可以依据数据展开研究。大陆学者何非与何克清等则认为大数据开启了科研中的“第四范式”。在研究方法的丰富方面,大数据的价值还体现在研究者可以通过大数据对社会问题进行更为有效的前瞻与预测,超越了既有时间序列分析方法的效能。因为,大数据不再是以精确的方式定位分析某条信息、某个人的基本性质,而是在看似混杂的全面性的信息中发现趋势、预测走势。如PredictionImpact,Inc的董事长、哥伦比亚大学前计算机科学教授埃里克·西格尔博士发起成立世界预测分析大会,其在《大数据预测》中对数据效应、集团效应、机器学习、数据表达等问题进行了阐释,内容涉及公共管理、商业策略、金融风险、社交媒体等社会科学研究的领域。从现在的应用来看,大数据预测已经在新闻传播、影视娱乐、金融投资、政策制定等方面得到了快速的应用。如影视行业中依据大数据来进行演员的选择和剧情的创作、BAT通过大数据平台预测票房等;相应地在影视产业研究中,有学者就提出通过大数据和云计算技术建构深度分析平台,能够为电影产业的发展和研究提供数据支持和科学决策方面的服务。再如美国学者托马斯·沙德福通过“搜集1990年到2013年间166个国家的报纸文章,形成大数据后进行,来分析预测是否会发生战争”。另外,在网络信息空间的内容分析方面,2010年美国和英国的三位学者合作发表了《Twitter情绪预测股市》论文,通过近1000万条推文作为样本展开网民情感研究,预测股市涨跌。总体来看,大数据给传统社会科学研究方法带来了范式转变,但目前对大数据方法的选题依据、理论框架、研究设计、数据分析、研究伦理、信度和效度等方面的议题仍缺乏深入的研究,社会科学研究在这些议题上多援引计算机领域学者和数学家们的观点,而没有本质上的创新。三、大数据应用于社会科学研究的悖论毫无疑问,大数据能够提升社会科学研究的质量,但近些年的研究表明,对大数据应用于社会学科研究的价值需要有更为理性的思考,既不能否定其积极的意义,也不能夸大其作用。舍恩伯格的《大数据时代》无疑推动了当前的大数据浪潮,在作者看来,从思维的角度讲大数据具有三大特征:“一是基于总体而非样本的思维,二是拥抱混杂性而非精确性,三是着眼于相关性而非因果性”。这三点也是社会科学研究经常引用的“座右铭”,而对于这一具有革命性的论断,从当前的研究来看,已经引发了一系列的争议。我们发现在一些社会科学研究逻辑的基础性问题上,大数据存在着若干悖论。以下从舍恩伯格关于大数据思维的三个特征进行探讨。(一)总体与样本的悖论:大数据的采集与测量中,“一切皆可量化”的理想与数据获取现实之间存在较大差距舍恩伯格的第一个思维是关于总体与样本关系的思维,他认为大数据时代的数据一定是基于总体的。按照舍恩伯格对大数据的解释,“世界的一切关系皆可用数据来表征,一切活动都会留下数据足迹,万物皆可被数据化,世界是一个数据化的世界,世界的本质就是数据”。这一理解归结为一句话便是数据科学家们的座右铭“Ifyoucan'tmeasureit,youcan'tfixit”(唯有量化问题方能解决问题)。大数据的鼓吹者们宣称一切“皆可量化”。传统的社会科学研究不得不以扩大样本量的办法获得描述性统计的精确性,但由于抽样框的限制,最大比例的样本量也不可能与抽样总体相一致,因此传统的描述性统计所用的样本再大也具有推论的性质。在大数据时代,全样本基础上的全数据成为可能性。于是我们发现一切皆可量化的结果,按照舍恩伯格的逻辑来讲,应该获取总体的数据。虽然从研究方法上讲,社会科学乐见获得总体的数据,但在社会科学研究中却与舍恩伯格的愿望大相径庭,主要问题在于社会科学研究对象的特殊性,这主要包括两个方面的问题。一是社会学科的研究对象本身的性质决定了难以获取总体数据。舍恩伯格所描述的能够量化的总体在社会科学研究中属于完美数据,是很少出现的,甚至没有出现过的。以舆情研究为例,通过现有传感器比如twitter、facebook、新浪微博等平台,甚至整个互联网上的数据,都只能是部分舆情。因此,网络舆情从来就不等于网民民意,网民民意更不是国民民意。当前快速获得民意的方式主要是网络调查,而网络上的声音和意见是由网民发出的,从统计学角度讲,网民作为抽样框和其背后的人口总体结构之间难以匹配。对于我国而言,据《第39次中国互联网发展报告》显示,我国网络普及率为53%,网民的主要人口指标和实际人口结构有着强烈的差异。二是社会学科的研究对象本身难以通过测量获得大数据的概念体系。社会科学研究重在通过概念的操作性定义建构概念间的逻辑关系,而从存在环境上讲,大数据存在于各种形式的信息系统中,进行社会科学研究就要对研究对象进行精确的界定,如实证研究需要概念建构与测量的过程。这样,问题又回到了社会科学研究的一个基础性问题上,是不是所有的概念均可量化,进而建构概念之间的关系?我们知道,社会科学的研究对象是人类社会的发展规律,而人文学科的研究对象则是人类的精神世界和精神文化;人文学科研究中有人类社会研究内容的指向,而社会科学研究中也有人类精神世界的研究内涵,特别是在跨学科研究及新兴研究领域不断生成、不断扩展和深入的过程中,难以从学术理念及研究方法上真正切割各学科之间的边界。那么问题就还是聚焦在大数据的背景下,无论是人文学科还是社会科学在牵涉人类精神世界研究内容问题上的概念是否可以量化。如“美”这一概念,康德讲美是“无目的的合目和性”,黑格尔讲美是“绝对理念的精神显现”,经过社会科学方法的测量,结果却均为“美的”这一概念,而不是“美”。因此,大数据推崇者所说的“一切皆可量化”是要有限度的,至少在社会科学研究领域而言,在牵涉人类精神领域的概念测量方面,并不是至少潜在可观察可测量的人类社会那样,概念的描述性定义和操作性定义具有高度的一致性。(二)混杂与精确的悖论:大数据追求质量,但数据的混杂性与精确性却不可调和舍恩伯格强调数据的精确性,但面对多元化来源的海量数据,他用数据的混杂性来解释大数据的特点,数据的混杂从何而来,主要是两个方面:一是空间的混杂,这种混杂直接影响共时数据获取的质量;二是时间的混杂,这种混杂的结果直接影响数据预测的精确。两者的混杂又构成了数据的盲目增长,而在这一过程中,无效数据的增长使得数据有效性或数据质量大打折扣。第一,空间的混杂及影响。由于网络水军、五毛党或美分党在互联网上大量存在,以及其它的虚假信息的泛滥,经常使得我们所获取的来自互联网、移动互联网的数据的真实性、可靠性值得怀疑。正因为这样,舍恩伯格以混杂性为名对数据质量进行辩护,会引发大数据领域的社会科学研究基础问题的紊乱。第二,时间的混杂及影响。大数据很重要的一个应用是对社会未来发展趋势的预测。在这一方面,有一个社会科学研究的精度问题,即高速获得的社会数据能不能精确描述社会的真实状况。第三,数据精确性直接相关的是数据有效性的问题。随着数据量的增大,有效数据与无效数据都在增大。(三)相关与因果的悖论:大数据的分析与研究范式,相关性的探索不能替代推断的价值实证研究中相关关系与因果关系的研究都有着重要的地位,而大数据应用于社会科学的主要功能则在于对相关性的探索。在这方面有三个问题需要讨论:一是从相关性研究自身而言,大数据重在发现相关性,而难以解释相关性。在非大数据应用的情况下,相关性的探索主要依靠研究者对研究对象相关关系的提前设定,通过结构化的数据进行分析,对于提前设定的相关关系证实或证伪,这一过程我们可以称之为证明相关性。二是从相关与因果关系而言,大数据无法阐释表象背后的本质。社会科学研究一直遵循“大胆假设,小心求证”的研究传统,而大数据的应用使研究有了从假设作为起点之外还可以从数据作为研究起点的另一选择。三是从社会科学研究方法而言,质化研究的价值是大数据的相关分析所不具备的。社会科学的研究方法不仅是量化方法,还包括质化方法。而质化方法也是开展相关关系研究与因果关系研究之前进行探索性研究的主要方法,是凝结了研究者高度理论智慧的研究环节。四、结语从以上分析可以看出,大数据的生产、分享与使用正在迅速地改变着社会科学研究的格局。它使我们更加客观、全面、准确认识和了解这个世界,在社会学科研究中取得了不菲的成绩。但是大数据所描绘的理想状态,与我们研究的实际状况还有很大差距,可能科学研究的结果只能无限趋近于真理。就社会科学的各个研究领域而言,大数据方法的理论基础、选题指向、研究框架、信度效度和伦理规范都还处于起步阶段,只能说当前大数据给社科研究视野的提升、领域的拓展提供了一定的工具和思路。因此,在大数据的应用过程中还需要不断强化两个认识:一是对社会科学研究特殊性的认识。社会科学的“研究对象是事实性与价值性的统一,是可预见性与预见的有限性的统一,而且具有偶然性与不确定性。因此,复杂性思维是人文社科研究的总体方法论”,②再发达的技术也无法替代社会科学理论思维对社会现象本质以及研究过程中对人类精神的把握。二是对大数据应用方式和作用范围的认识。要认识到大数据对社会科学研究具有提升的作用,但只是达到社会科学研究目的的一种路径。(原文有删节)(智库专家、山东大学新闻传播学院倪万唐锡光)

大围捕

大数据推动教育科学研究进入新境界

一、万物归数:大数据推动教育科学研究的理论视点基于大数据的教育科学研究以“大数据”作为研究活动的基本质料,以大数据记录和实时分析作为研究活动的基本形式,延续了经典科学研究范式的“数据依赖”,但大数据研究方法的数据论基础又不同于“小数据”,它蕴含着人们对数据应用认识的“肯定—批判—再肯定”的辩证发展过程,由此构成审视大数据方法的三个理论视点。(一)可数的世界:对世界的数字化观察用数据去探究世界万物无论是在东方还是西方都有悠久的历史。孟子说:“权,然后知轻重;度,然后知长短。物皆然,心为甚。”即无论是客观世界还是内心世界都需要用数字去衡量。毕达哥拉斯则提出了“万物皆数”的命题,确立了世界的本质即数据的哲学思想。随着近代自然科学的兴起与发展,数的思想开始从哲学世界观与方法论走进具体的实验科学,成为科学研究方法论的基石:“凡物的存在必有其数量”,“凡有数量的东西都可以被测量”。另外,数据不仅是现象的“证据”,而且是现象本身,数据还是建构理论和证伪理论的工具。数据也是科学共同体、共同体之间、共同体内外的通用语言。正是数的可通约性、可交流性、客观性、精确性,使得基于数据的科学研究成为一种信念、一种科学习惯、一种学术传统、一种成功的范例,从而构建了牢不可破的经典科学研究范式。因此,科学研究即“数字观察”,数字代表着世界的真实,凡不可数的也是不可靠的。科学实验之目的就是获得各种数据,用数据来解释现象、区别现象、干预现象、构造现象,用数据来揭示某种解决方案及方案的有效性、可行性。以至于“我思故我在”的“我思”也成了不完全可靠的东西,它必须接受数据的检验。如逻辑实证主义就以经验为根据、以逻辑为工具进行推理,然后用概率论来修正结论。由此,数字观察成了对认识活动进行审判的最终尺度。(二)不可数的世界:对世界数字化的质疑现代自然科学的发展进程即是数字化揭示世界的进程。在教育研究领域,2017年《教育实证研究华东师范大学行动宣言》便是对数字化方法的一次强化。“用自然科学研究方法进展重构教育研究范式”也成为当前教育研究领域的一种导向,但这并不能遮掩对“世界数字化表征”的质疑。这种质疑主要来自人文社会科学领域。首先,人文关乎心灵,而心灵的形式化、逻辑化充满挑战。如人工智能以自然科学研究为基础,以数字化方法为支撑,是对人“心灵”的形式化、逻辑化处理的一大尝试,并取得了巨大成功。但对人“心”的形式化处理存在着终极的认识论困惑,人并不存在一颗形式化的心,人只有一个完整的包含“文化”“生理”与“技术”三层结构的“身体”。人的任何思维和情绪都是“具身”的,它不可能抽身而去,等同于一连串数字。其次,在人文社会科学领域,对现象的数字化表征也存在方法论局限。社会环境不同于自然环境,各种影响因素复杂交织、互相影响,很难对社会条件进行控制取得理想数据。用自然科学方法研究社会问题时,往往是把总体分解成单项,然后再还原成总体,这种机械的取数方法与人文社会科学领域有机的世界观和方法论难以相容。另外是来自自然科学和科学哲学的挑战。在自然科学领域,量子力学的发展对自然现象的数字化表征提出了难题,如量子运动轨迹是无法被观察和测量的,量子通信的保密性正是建立在量子不可测量基础上的。科学哲学的挑战则牵涉休谟对数理逻辑中因果性命题的终极。休谟对经典科学研究范式的基石“因果关系”进行考察后发现:所谓的因果关系只不过是“心理习惯”“恒常联系”和“必然性”。上述挑战不仅使经典科学研究范式城堡可能被攻破,也使得镶嵌于其中的数据方法合法性受到质疑。(三)彻底可数的世界:对世界数字化的极致追求对数字化方法的质疑是科学研究范式的危机,也孕育着科学研究方法突破的契机,大数据科学研究方法正是在这一危机、契机中间应运而生的。相对于“小数据”,大数据堪称数据领域的革命。如上所述,“小数据”在揭示人的心理和精神活动方面仍存欠缺,因而无法像发现自然科学规律那样发现人文规律。“小数据”在揭示社会科学规律时也远不如在自然科学领域的表现。据现有认识结论,其中原因乃是“小数据”的局部性、片面性,导致“小数据”对人文和社会复杂现象的揭示只能做到“管中窥豹”“盲人摸象”,无法实现总体性的描述。而大数据是小数据汇聚的结果,不同的数据互相流动、交融,形成了一张疏而不漏的数据之网,从而使从不同观测点把握人文社会现象成为可能。多点观测、综合分析使得人文社会科学规律的揭示成为可能。这便是技术乐观主义者的看法:并非数据不能揭示人文规律,乃是人文规律的复杂性需要用更丰富复杂的数据结构来解释。数据从“小数据”发展到大数据,进一步使人们坚信“世界本质的数字化构造”,卡尔·波普尔三个世界的划分也从未像今天那么正确。数字世界已不是一个人构世界,也不是一个镜像世界,它是一个“客观实在世界”。正是当今无处不在的数字化活动,以及由此产生的纵横交错的数字网络,使维克托·迈尔-舍恩伯格喊出“世界万物都有数据化的形式,都可以被数据化”,“无论是自然事件还是社会历史事件,都存在着数据的形式”。既然世界的本质是数字的,科学研究的使命便是挖掘数据,发现其中隐藏的数据规律。在当今技术条件下,这种数据挖掘方法或科学研究方法主要依靠一张布满了传感器和数据处理器的所谓“智慧网”“物联网”。这种技术构架不仅使触网的一切人和事迅速数字化,而且可以做到实时动态记录和分析。它对数据的搜集、传输、处理速度都是小数据方法无法比拟的。且大数据方法可不追究因果性而对事物特性进行描述,因而也可解决“小数据”无法描述的量子纠缠难题。因为,具体的量子传输内容纵然不可测量,但它们的总体活动特征却可通过更大范围数据变化进行描述。二、方法演变:大数据推动教育科学研究的范式转换托马斯·塞缪尔·库恩将科学研究的范式定义为科学共同体在科学活动中共同的信仰、价值,以及遵循的实践技术规范。根据经典科学方法,教育研究的科学范式至少具有四个要件:客观的研究对象、可靠的数据证据、可再现的研究情景、因果关系。正因为教育科学研究难以满足上述条件,严格意义上的教育科学研究范式并没有确立。教育领域的科学研究方法也一直与人文方法和社会科学方法互相掣肘,甚至对立。但大数据方法从一定程度上突破了经典科学方法的范式框架,形成了明显不同的科学研究结构,称得上是研究范式的革命,对进一步推进教育研究科学化进程具有重要意义。(一)研究对象设置:从具体客观到无须预设教育学研究文献对教育科学研究对象的表述大致可概括为三种:教育现象、教育活动、教育问题,但都难言客观性,难以满足经典科学对研究对象的要求。首先,教育现象领域主要是意义和价值系统,属于生活世界的组成部分,而生活世界又是感性直观、不言而喻的前科学世界,它是与科学世界相区分的领域。因此,教育作为生活世界的现象无法成为经典科学探索的对象。其次,教育活动也不同于自然科学领域的物质运动,甚至不同于社会治理领域的社会活动,教育是社会的人文活动,也是人文的社会活动。相对于社会治理领域的社会活动,更人文的教育活动具有更弱的“规律性”。最后,教育问题是价值问题而非客观问题,因为教育活动从目的看是求善而非求真。教育问题充满知识、权力和利益的冲突,但解决方案是求善的,而不一定是真实客观的。因此,教育科学领域实在难以找到科学、客观的研究对象,除非将教育领域中的师生主体排除在外,寻找一种抽象的教育结构。当“教育研究约定的对象只是虚幻”时,教育科学研究如何前进?大数据方法则开辟了一条道路。在大数据方法中“既没有设定的目标,也没有设定的问题;既没有设定的条件,也没有设定的理论模型”。因此大数据方法不需要预设所谓研究对象,它只需拥有数据就足够了。大数据方法要做的事情,就是在大数据海洋的某些地方设置合适的观测点,“通过特定算法对大量的数据进行自动分析,揭示数据之间隐藏的关系、模式和趋势”。(二)研究数据处理:从局部数据到全部数据教育现象能否数量化、如何被数量化、数量化的解释力等一直受到质疑,成为教育研究科学化进程的阻力。经典的自然科学研究范式具有典型的“还原论”特点,而教育现象则拒斥还原论。大数据范式从一定程度上克服了该难题,毋宁说是一种更好的还原论。问题解决的进路是:经典科学研究范式中产生和运用的数据是有限性、封闭性、条件性、简化性、单一性的,因而通过该科学方法获得的教育数据只是理想的、局部的、片面的,难以有效揭示教育领域的混沌、复杂现象,而大数据的“4V”特征使它能够更好地揭示教育现象。首先,大数据的数据结构更复杂,它不限于学习数据,而是囊括了生活数据,这是教育科学研究发现更多、更真实教育联系的前提。另外,大数据是自然原始数据,它主要来自各种观测和记录,不经过研究者的修剪和加工。这种数据的采集可以是人为的,也可以是机器自动生成、记录的。人为的数据只是大数据的小部分,当它汇入了大数据的海洋之后,也是原始数据,也要被重新置于更复杂、更广的数据系统中得到检验和发掘。当越来越多的各类数据混杂在一起,数据的间隙就会弥合,教育现象世界的本来面目就有可能真实地被数据化显现出来。这也说明,领域内数据的成熟度是大数据方法发挥效用的前提。(三)研究方法选择:从重复证明到概率说明研究情景的可再现性、证据的可重复性是经典科学研究方法的要件之一。但在教育科学研究领域,研究情景往往不可再现、证据也难以重复。比如,要证明一个上补习班学生的学习效果,事实上很难采用严格的实证方法。因为无法让一个学生既去上辅导班又不去上辅导班,从而对两者的效果进行对比。那么,能够找一个没上辅导班的学生对比吗?严格说也是行不通的,因为两个儿童的生活环境不可能完全相同。同理,既无法让一个学生同时上两所高中,以确定哪一所高中更好,也无法让学生上两次同一所高中。但在大数据方法中,不再追求当A出现时B是否一定作为A的逻辑结果出现,即A和B之间是否因果关联,也即A和B是否会反复伴随出现。而是记录A的类似事件和B的类似事件伴随出现的频率,比如,事件A出现时伴随着事件B;事件A’伴随着B’;A”伴随着B”;……;依此类推。其中,A、A’、A”为类似事件,B、B’、B”也是类似事件。大数据方法正是通过对每一样本(全样本)行为的记录,发现各种伴随事件出现的概率,进而发现关联。尽管事实上不可能真的全样本,但永远向全样本靠近,越靠近,结果就越可靠。总之,大数据方法不刻意追求逻辑因果关系,因此成功地将科学研究中的“重复证明”转化为“概率说明”。(四)研究结论表达:从因果逻辑到数据相关如上所述,追求逻辑因果关系是经典科学研究范式的主要旨趣。但事实上,逻辑因果关系一直受到科学哲学的质疑和挑战。波普尔认为,逻辑实证主义的“观察”环节渗透着观察者的种种主观偏见,而且从“有限的观察归纳出无限适用的结论,这种归纳过程是可疑的”。但波普尔本身主张的证伪主义,事实上从某种程度上挑战并抛弃了因果逻辑。当然,给因果关系造成最大冲击的当属休谟,他关于因果关系是“心理习惯”“恒常联系”和“必然性”的观点扭转了人们对因果联系的看法,因果联系并不是逻辑的,而是习惯的、恒常联系的、必然的。大数据方法能在一定意义上与这一新的因果观呼应:大数据基于概率论,不具有必然性,也不具有恒常联系的属性,它只是一种心理习惯意义上的定律,即休谟所谓心理习惯意义上的因果联系。在教育科学研究领域,一果多因、一因多果、多因多果等关系复杂交织,事物的运动变化就像一片飘落的羽毛,具有不确定性,加之教育属于意义价值系统的领域,教育规律更接近于人的文化心理习惯,大数据方法在这里恰恰能够发挥更好作用。不过,上述心理习惯定律,能否进一步发展到恒常联系和必然性的逻辑定律?这一点学界意见并不统一。尽管W·皮奇通过对大数据的计算机算法进行考察,发现诸如决策树和贝叶斯算法中有消除归纳法等因果逻辑方法,并认为大数据方法可以探索因果性,但这只是计算机的算法个例,并不能说明全部问题。但可以肯定的是,大数据方法拓展了对因果关系的理解,更广义的因果关系可以囊括和解释更多的教育现象,并在一定条件下探索教育活动中的恒常性、必然性联系。三、理性审慎:大数据推动教育科学研究的实践规范总体看,大数据方法构建了有别于“小数据”方法的教育科学研究范式,但在超越中也存在着新的数据方法危机,需要加以甄别并恰当应对。(一)大数据方法需其他研究方法补充大数据方法的物质基础在于“一个布满传感器”的世界,可随时随地记录人类个体极其复杂和细微的行为,从而对任何触网的物体和个体实现数字化描述。技术的如此进步造就了新的数据功能论,即大数据的庞杂性、混沌性、跨界性使得大数据具有描述和揭示复杂社会现象的可能与潜力。但现代技术条件下的数据化过程仍存在一些问题。首先,尽管在数字化时代,世界可以看成是由连续数字构成的,但技术工具记录的数据仍然是“有限数据”,仍难以实现付诸对象的无缝数据化。其次,现代智能机器对人类个体的数字化描述主要基于“行为数据”而不是“思维数据”。人的思维涉及情绪、情感,涉及生活史、生命史,也涉及理性和非理性,变化莫测、难以捉摸,因此思维的彻底数据化仍存在极大困难。完全的数据化方法仍是以大数据为表现形式的“行为主义”科学方法。在教育研究中,学生的内部思维过程才是研究重点。对内部思维的研究也不是分析被现代人工智能借用的“形式化、数字化认知程序”,而是理解充满生命气息、人文气息的文化心理认知过程。在这方面,标榜超越人类智能的人工智能仍相形见绌,大数据尚不能记录并呈现人类个体昨夜的美梦,这说明教育研究作为人文的研究,不能仅靠数据化方法,教育研究仍需人文研究方法作为补充,并把它置于数据分析的基座之上,且使它成为整个数据分析过程的灵魂。最后,大数据方法与“小数据”方法应互相补充。数据的增加,意味着数据结构更复杂以及数据资源量的增加,但价值密度降低,这需要“小数据”方法来弥补。由此也可看出从“小数据”方法到大数据方法并非彻底的范式转换,还涉及范式融合。(二)大数据方法应融入教育价值原则与经典科学研究方法不同,大数据方法取得的结果并非必然的逻辑因果说明,而是关联性说明。因果性是事物之间明确的、确定的逻辑关联,代表着必然性;相关性则是事物之间非明确的联系,代表着盖然性。必然性,是教育活动中必须遵从的价值原则,因为“违背规律必然得到规律的惩罚”。盖然性说明的是概率性事件,包括大概率事件和小概率事件。大概率事件和小概率事件对教育活动来说具有同等重要的意义。大概率事件使得我们在教育活动中要面向大多数、面向一般问题、共性问题,小概率事件则使我们重视教育活动中的个别事件、偶发事件。而教育活动领域正是个别事件和偶发事件集中的场所。甚至在很多情况下,个别事件和偶发事件正是教育追求的东西,因为它们往往代表着学生发展的可能性。而大数据方法,从根本上看主要聚焦大概率事件,它反映的是数据的聚类、分类和趋势。“小数据”方法寻找的则是异常数据和小概率事件,如传统数理统计学中的P值正是追踪小概率事件的重要指标。因此,不妨说大数据方法能更好反映大数据的优势,因为在数据海洋里“小数据”往往被湮没。这也是由大数据的本质特点决定的,大数据由于其价值密度低,不可能筛查数据中的所有异常现象。因此,大数据方法对教育活动中的小概率事件及其价值并不够敏感。这说明,大数据方法在教育研究中的应用要重视两点:一是在研究设计中应当注重对“小数据”、异常数据的检测,另外是给予反映小概率事件的数据以足够重视。(三)大数据方法需权衡具体适用情景大数据并不是万能数据,大数据的数据来源、数据特征、数据功能决定了大数据有相对优势的使用领域。大数据的解释力和预测力还需要具体领域进行具体分析。一般认为,社会科学(包括教育科学)是具有低解释力和低可预测性的科学领域,从大数据本身的功能看,则具有低解释力和相对高的预测力。虽然“社会学很少做预测,即便预测了也很少成功”,但大数据还是可能帮助其提高预测力的。而大数据的低解释力则会加剧社会科学的低解释力。由于教育学相对其他社会科学具有更浓厚的人文性、更弱的规律性,因此大数据对教育现象的解释力进一步降低。不过,大数据方法在教育科学领域内部的适用性可以进一步细分。其一,从宏观教育现象与微观教育现象的对比看,大数据显然对宏观问题具有更好的解释力和预测力,这是由大数据之大形成的“宏观视野”决定的。比如,国家根据地方的经济数据对各地进行动态教育财政拨款。但运用国家宏观数据指导具体教学则不合理。其二,围绕微观个体的大数据仍远远没有形成,说明大数据在微观教学领域有比较低的解释力和预测力。其三,大数据在教育理论、教育实践、教育评价等领域的解释力和功用也有差异。大数据在教育评价领域的解释力好于教学实践领域,因为评价本身就是数据化过程,而在实践领域的应用效果则好于理论研究领域,因为教育实践领域是关系复杂的混沌领域,契合大数据的特点,而大数据分析没有确定的理论模型,也不指向理论因果,说明其理论性较弱。最后,大数据对外生性因素的解释力好于内生性因素。由于大数据善于对学生行为进行记录,因此,大数据分析学生学习外生性因素的效果要好于内生性因素。(四)大数据方法应考量相关数据积累大数据方法应用不能只从理想视角分析,而应对理想大数据和现实大数据进行区分,以免造成认识上和实践上的混乱。其一,从理想大数据看,大数据基于对世界万物的感知和记录。在技术基础上,可穿戴设备等传感器无处不在,世界的每个角落、物的样态和人的一举一动都在智慧网络的观测记录之内,数据在信息公路上自由流通。然而,大数据的现实是:传感器没有无所不在,智慧网络远未无孔不入,大数据仍是一张稀疏的数据网络。大数据只是相对的大数据、局部的大数据。另外,大数据方法产生于商业领域,在商业领域应用广泛,在教育领域发展滞后。其二,从大数据的挖掘和分析看,大数据的算法有限,诸如贝叶斯算法和决策树等有限种类。很难想象大数据无限的可能会被有限的算法捕捉到。因此,舍恩伯格和克里斯·安德森所宣称的“相关关系代替因果关系”的豪言壮语仍然缺乏物质技术基础。其三,数据伦理问题,包括数据隐私、数据开放、数据共享等。由于种种人为的、技术的和伦理的障碍,数据没有汇聚成大数据的海洋,而是被分割成了无数的数据湖泊,许多关于大数据方法的理想功用仍无法实现。因此,着眼于教育科学研究的发展,应重视教育领域内的大数据库建设,开发针对教育科学研究和教育活动监测的数据搜集处理软件。同时,尽量消除教育领域内各部门之间的数据壁垒,并通过合适的方式与学校外部数据实现对接。在方法论上,把领域内大数据的成熟度作为大数据方法应用及对其结果进行解释的重要依据。

花打朝

首届科学大数据管理国际会议在京举行

近日,首届科学大数据管理国际会议于北京召开。会议以“大数据驱动的科学发现”为主题,旨在探讨大科学数据的生命周期管理、大数据驱动发现过程中的主要方法和关键技术,为培养新的科学思维方式收集意见,并促进大数据科学的普及。美国加州理工学院教授Barry C. Barish被称为“引力波”之父,因为建设了激光干涉引力波天文台(LIGO),并将其灵敏度提高到可成功探测引力波的水平,2017年他与另两名科学家一起被授予诺贝尔物理学奖。在物理学中,引力波是指时空弯曲中的涟漪,通过波的形式从辐射源向外传播,这种波以引力辐射的形式传输能量。“我们正在努力对LIGO装置进行技术上的改进和升级,增强设备探测精度,希望下一代探测器能够验证爱因斯坦的广义相对论,并且让引力波帮助人们更好的了解和观察宇宙。”Barry C. Barish表示,随着LIGO精度的不断增加、及新技术的推出,未来或许可以观测更多的空间。“从斯隆数字天空测量和哈勃深场开始,天文学已经进入了测量时代。”约翰霍普金斯大学彭博杰出教授Alexander S. Szalay是数据密集科学研究所所长,致力于星系空间分布和星系形成的统计测量。他表示,大型综合巡天望远镜LSST将打开时域,并带来庞大的天文数据,数据量急剧上升又将会给数据管理带来新的挑战。Alexander S. Szalay认为,需要重新审视长期的数据管理,确保搜集的数据能够在其有用的生命周期中安全地保存和分析。据悉,本次会议由中国科学院计算机网络信息中心、中国人民大学、CWI和MonetDB Solutions等发起,由中国科学院计算机网络信息中心具体承办。来自不同国家的200余名专家学者围绕数据政策和基础设施、大科学装置、机器学习发现、地球大数据、科学大数据管理系统等议题,进行了深入的研讨。会议得到了国家重点研发计划“科学大数据管理系统”、中科院A类战略先导“地球大数据科学工程”、中科院十三五信息化“科学大数据工程”等的支持,项目参与人员也在会上对项目成果进行了分享,相关成果在科学数据驱动的创新发现方面做出了有益的探索和示范。

傅山

中科院发布“地球大数据共享服务平台” 构建数据共享新模式

央广网北京1月16日消息(记者朱敏)据中国之声《新闻纵横》报道,如今,大数据的出现,令我们的生活变得更加方便,也为自然科学研究带来了新的方法论。如果给你一个地球大数据平台,它能够更便捷地帮你获取这个星球的更多信息,不仅可以满足你好奇心,还可以用来做科研。这把认识地球的“新钥匙”你想不想拥有呢?昨天(15日),中国科学院发布了地球大数据共享服务平台,向公众提供了一个快捷、精准的地球科学数据共享平台。共享平台上的地球大数据信息将为驱动原创性科学发现和促进国家经济社会发展提供技术支撑和决策依据。地球大数据共享服务平台是集成多领域海量数据,服务数据驱动的科学发现与决策支持的科学平台。此次重点发布的是地球大数据共享服务平台的两个核心系统——数据共享服务系统和数据银行系统,以及一个区域系统——数字丝路地球大数据系统。地球大数据专项负责人郭华东院士介绍,地球大数据专项集成了中科院资源、环境、生物、生态等领域基础数据和科研成果。郭华东说:“我们集成的这些地球大数据,在发掘它的规律基础之上,为一些国家的资源问题、环境问题、灾害问题、重大科学问题的解决预案提供政府决策支持。地球大数据本身也是一种新的发现模式,创新了科学研究的方式方法,同时通过读取大数据直接得到科学发现。”地球大数据共享服务平台面向公众免费开放。在这个网站里,用户可以根据自己感兴趣的内容检索出海量信息。比如,搜索“青藏高原”,你就能获取到关于青藏高原的各类专业介绍和数据分析。在数据银行系统中,你还能看到卫星实物地图,甚至欣赏1986年以来的遥感卫星影像真实记录的黄河入海口30年的变迁。可谓真实演绎了“沧海桑田”。郭华东院士说:“作为科学大数据的一种数据,我们认为地球大数据确确实实正在成为人类认识地球的新钥匙,知识发行的新引擎,决策支持的新手段。”中科院副院长张亚平表示,这一平台的目标是能让任何人在任何地点都能便捷享受到大数据的服务。说起地球大数据,很多人可能会想到谷歌地球。郭华东院士表示,相比于谷歌地球,我国的地球大数据共享服务平台更多服务于专业用途。郭华东介绍:“谷歌更多的是做一些图像的展示系统,然后做一些空间分析。我们是把一些计算分析等都含进去了。重要的一点,由于我们这个平台本身的特点是面向政府决策、面向科技团体,所以研究的色彩比较浓。从应用服务来讲,谷歌主要还是做地图服务,我们主要是服务于资源、生态、环境、生物方面。”不过,给专业人士用,不代表普通用户不能用。郭华东院士说,对于普通百姓来说,这个平台有广泛的潜在应用前景。他举例说:“比如有些气象灾害,可以用大数据分析的基础来预测。另外,越来越多的人喜欢旅游。那么,去哪旅游、能看哪些风景、哪的植被有什么变化、有什么危险,在地球大数据平台上都可以很好的展示出来。”中科院植物所、海洋所、西北生态环境资源院、微生物所、动物所等很多专业院所即是专项的参与者,也已从地球大数据共享服务平台上获益。中科院动物所研究员纪力强说,他们已基于大数据的服务,研发出推向市场,大众科普的产品。纪力强介绍:“我们还开发了手机app,现在植物的已经很成熟了,动物的正在做。就是说,到山上去你看到树、花或者草,拍个照,上传到网络上,马上就会告诉你这是什么植物、分布在什么地方、它的属性等等。植物的已经做好了,鸟的、昆虫的我们正在做,未来一两年大家能看到。”除了数据共享服务系统和数据银行系统,郭华东介绍,数字丝路地球大数据系统更让我国的地球大数据服务走出国门,在“一带一路”沿线国家的农业、考古等领域做出贡献。郭华东介绍:“咱们的‘一带一路’的农情系统已经在莫桑比克落地了。在历史遗产方面,突尼斯利用中国的技术发现了他以前的战略要地,包括一些城墙城堡等等。包括咱们在柬埔寨做的一些历史遗产的环境保护工作也在其中。另外像在一些中亚国家,比如在吉尔吉斯斯坦,不仅用了咱们的数据,还帮助他建立了一些机构,有的名称都是跟我们学的。”张亚平指出,科学数据的积累、开放、共享,已经成为世界科技发展的重要资源和推动力,地球大数据共享服务平台将构建我国数据共享新模式。张亚平说,未来地球大数据共享服务平台全面建成后,相信将有利地推动中科院乃至国家层面地球大数据实现从被动共享到主动共享的转变,从项目资源驱动到平台与服务驱动的转变。汇集全球共享数据,解析全球大尺度的科学问题,获得更为普遍的科学认知,提升全球竞争力。

门无鬼曰

山东大学成立数据科学研究院 打造数据人才培养高地

7月12日,山东大学数据科学研究院在济南正式成立。 赵晓 摄中新网济南7月12日电 (赵晓)山东大学数据科学研究院12日在济南正式成立,将围绕经济社会管理、工程技术、医疗卫生等领域开展科学研究,建设数据人才培养高地。图为教育部科技司副司长高润生在山东大学数据科学研究院成立大会上致辞。 赵晓 摄记者当天在山东大学数据科学研究院成立大会上获悉,该研究院将以机器学习与数据科学基础理论、计算社会科学、健康大数据和工程大数据等为研究方向,下设大数据理论研究中心、健康医疗大数据研究中心、计算社会科学研究中心和工程大数据研究中心。山东大学数据科学研究院院长刘建亚介绍说,该研究院是校属独立实体性科研机构,将综合运用数学、统计学、计算机科学、信息科学等学科进行前沿研究。“既注重数学科学研究,也立足于理学、工学、医学等领域的实际应用,培养数据科学专业高端人才。”“当前,人类社会步入数字化时代,数字经济风起云涌。中国大数据产业初建规模,具有良好发展前景。”教育部科技司副司长高润生在大会致辞中表示,山东大学成立数据科学研究院是高校科技体制改革的需要,应充分整合校内科研资源,瞄准国家战略和区域发展的大数据需求,加强数学理论、数据科学和数字经济一体化研究,持续催生新业态和新产业,支撑经济高质量发展。当天,山东大学数据科学研究院内设的健康医疗大数据研究中心同时挂牌为“山东大学健康医疗大数据研究院”和“山东省健康医疗大数据研究院”。图为山东大学校长樊丽明在大会上发言。 赵晓 摄国家卫生健康委员会统计信息中心主任张学高指出,大数据是信息化时代的战略资源,健康医疗大数据的发展目前正面临数据融合共享程度低、医疗机构数据围墙难以打破、复合型人才匮乏等挑战。山东省、济南市已分别入选国家健康医疗大数据中心的试点省市,山东大学健康医疗大数据研究院的成立将汇集政府、企业、研究机构、医疗机构等多方力量,打造政产学研用为一体的健康医疗大数据系统,推进“互联网+医疗健康”发展。山东大学数据科学研究院的内设机构健康医疗大数据研究中心正式挂牌“山东大学健康医疗大数据研究院”。 赵晓 摄据山东大学校长樊丽明介绍,数学学科是山东大学传统优势学科,为发展数据科学等新兴交叉学科奠定基础。数据科学研究院将以数学为基础,围绕经济社会管理、工程技术、医疗卫生等领域的核心问题推进研究。“厚植齐鲁大地,研究院还将加强与地方政府、企业的合作,建设大数据分析共享平台,推动社会服务和成果转化,回应时代需要。”(完)

混乱日

一名大数据专业研究生的自述:跟上这个时代是挺好的事

走进经济生活里的一切导读:2016年2月,教育部公布新增“数据科学与大数据技术”专业,北京大学、对外经济贸易大学、中南大学成为首批获批高校。次年,又有32所高校获批。此次248所高校获批“数据科学与大数据技术”专业,几乎是前两次获批高校的8倍。来源丨21世纪经济报道(ID:jjbd21)记者丨王峰 北京报道图片来源/ 图虫创意(资料图)“没有什么行业是没有数据的”“我认为没有什么行业是没有数据的。”清华-伯克利深圳学院数据科学与信息技术专业一年级硕士生王宇杰说。 他在去年9月从一名工科本科生跨学科进入了大数据专业。大数据专业正成为时下火热的高校新增专业。在4月28日举行的教育部新闻发布会上,教育部高等教育司副司长范海林介绍,2017年全国高校备案专业中,新增数据科学与大数据技术专业点250个,同比增加了近7倍。从中国人民大学、北京师范大学、厦门大学等知名大学,到一些地方院校均投入了这股热潮。王宇杰大二时在一次展会上不经意接触到了一款大数据可视化软件Tableau,由此对大数据产生了浓厚的兴趣。通过Tableau,王宇杰感受到,数据分析这个行业的潜力无可限量。随着移动互联网大数据时代的到来,数据量正在不断增长。未来,更多人将学会分析数据,并将数据的洞察运用到工作和生活中的方方面面。数据分析会从小众走向主流,人人都可以成为数据分析师。接下来的大学时间里,他参加了一些数据科学家训练营,和一些商业机构组织的训练营,还在慕课网站上自修了国外大学的大数据课程。他在2016年的Tableau可视化分析争霸赛北京赛区比赛中拿到了第一名。Tableau可视化分析争霸赛是全球可视化数据分析人士的年度饕餮盛宴,每年都会成千上万数据狂人参加这一比拼。这其中,既有来自各行各业的数据分析专家,也有像王宇杰这样的数据爱好者,而王宇杰是获奖选手中唯一一名大学生。通过这些活动,王宇杰结识了这个一不断壮大的数据分析社区,也让他对这个行业更加充满热情。大四时,王宇杰得到了保研的机会,“国内开设大数据方向研究生专业的大学并不多,主要有清华大学、北京大学、复旦大学、北京航空航天大学等,这是当时比较知名的几个高校。”王宇杰说。王宇杰得到了北大和清华的offer,权衡之后,他选择了清华-伯克利深圳学院,这是清华和伯克利合办的硕士研究生项目,不仅可以在清华拿到数据科学学位,还有机会到美国加州大学伯克利分校去进行为期9个月的学习,同时拿到相关学位。“我是清华-伯克利深圳学院招收的第二届硕士生,也就是说,大数据专业其实是一个非常崭新的学科,在我申请的那一年,相对来说,大家对这个概念还不是特别了解,当然已经有一定数量的申请者,远超我们实际录取的人数,但并不是那么的火爆。”王宇杰说。“到了我下面那届,就是招收第三届硕士生的时候,竞争就变得异常激烈,在短短一年时间里,这个专业成为了大家认可的非常有潜力的专业,大批的工程本科生,或者是数学、经济方面的学生开始申请我们这个方向,因此录取率直线下降。个人感觉在近几年内,竞争会变得越来越激烈。”他说。清华-伯克利深圳学院的数据科学与信息技术研究中心设有6个实验室,分别为传感器与微系统实验室、纳米器件实验室、物联网与社会物理信息系统实验室、未来互联网研究实验室、大数据实验室、智能成像实验室。“我想一般人会认为我们专业课的名称会比较高大上,像大数据分析、大数据基础等,的确会有这些,但从本质上来说,我认为我们学的课程跟数学、工程学这些基础学科没有太大区别,当然加入了一些新兴科技的课程,比如现在很火的深度学习、人工智能。”他告诉记者。王宇杰进入了智能成像实验室,学习和科研课题是关于计算机视觉。“用一句话来概括,我们要做的是赋予计算机人的视觉能力。怎么理解呢?以后是一个有大量机器人存在的世界,而机器人要跟人类进行交互,做一些基本的工作,必须要有视觉能力,看得懂周围的环境,所以我们做的事情就是通过技术的方法让计算机拥有人的这种视觉能力。”他说。热门专业:数据科学与大数据技术图片来源 / 新华社(资料图)3月21日,教育部公布了2017年度普通高等学校本科专业备案和审批结果。在新增备案本科专业中,“数据科学与大数据技术”最为热门。根据统计,共有250所高校新增“数据科学与大数据技术”专业,其中包括中国人民大学、北京师范大学、厦门大学等19所教育部直属高校。河南省21所高校新增该专业,为最多的省份。河北、山东、安徽、广东、江苏等省也有较多高校成功获批。2016年2月,教育部公布新增“数据科学与大数据技术”专业,北京大学、对外经济贸易大学、中南大学成为首批获批高校。次年,又有32所高校获批。此次248所高校获批“数据科学与大数据技术”专业,几乎是前两次获批高校的8倍。该专业备受高校青睐与国家大力支持大数据产业发展及该产业人才奇缺相关。国务院2015年8月曾印发《关于印发促进大数据发展行动纲要的通知》,明确鼓励高校设立数据科学和数据工程相关专业,重点培养专业化数据工程师等大数据专业人才。根据教育部上述2017年度高校本科专业备案和审批结果,此次共有60所高校获批“机器人工程”专业。“机器人工程”专业大热的背后,是人工智能行业的持续发展。3月6日,南京大学官网正式发布新闻,经研究决定,南京大学正式成立人工智能学院。今年政府工作报告中四次提及“智能”,并特别指出要“加强新一代人工智能研发应用”、“发展智能产业”。值得注意的是,从清华大学到地方高校,大数据专业成为普遍的时尚。“清华或者其他一般院校,在这个领域里对科研的贡献会有差异,但事实上,在如今的大环境之下,大家都想跟上时代潮流,所以我认为无论处于怎样的研究水平,敢于去跟上这个时代,就是挺好的一件事情。”王宇杰说。“大数据是一个概念,它包含的范围非常广,不同的专业方向,对外显示的名称可能都是大数据分析、大数据工程与技术,但是整个产业其实非常庞大,从前到后拥有一个很大的产业链。”他说。“我认为数据分析师这个称谓已经太过宽泛了,我觉得这个行业需要细分,未来会有专门做算法的工程师,专门做硬件实现的工程师,以及专门做理论推导的科研人员等。”他说。(编辑 戴春晨)

老磨坊

2019高考专业解读:中国大学数据科学与大数据技术专业排名

2019年高考迎来倒计时,为让考生和家长更好、更全面的了解专业,优志愿每天为大家分享今日热点,并且为大家判断热门专业走势,大家可以一起来了解一下,为2019高考早做准备!一、社会热点1、最高法、最高检和公安部联合印发意见,公共交通工具上抢夺方向盘等妨害安全驾驶的行为一般不得适用缓刑;2、教育部等多部门下发通知,在内地(大陆)学习、工作和生活的港澳台居民,可申请参加资格考试,认定中小学教师资格;3、工信部消息,今年我国部分地区将发放5G临时牌照,预计下半年5G手机将投入市场;4、特斯拉工厂落地上海,商务部表示,欢迎各国企业来华投资兴业,共享中国汽车市场的发展机遇;5、10日,玉兔二号结束“午休”后成功被唤醒,继续展开对月球背面的巡视探测;6、中消协发布2018年十大维权热点:顺风车安全问题、个人信息保护缺失、大数据杀熟名列前三。【提示:数据科学与大数据技术专业】该专业是一个软硬件结合、兼顾数据科学理论与应用的以计算技术为基础的、以数据科学与大数据技术为特色的宽口径专业。就业前景毕业生能够在计算机和互联网领域以及大数据相关产业从事数据科学研究、大数据相关工程应用开发、技术管理与咨询等工作。该专业适合升学考研。2018中国大学计算机科学与技术专业排名二、高考聚焦1、广州交通大学筹建选址定在广州市黄埔区,计划2020年开始招生;2、聊城大学腾讯云人工智能学院揭牌;3、重庆大学和重庆航空达成的战略合作协议,开始培养飞行员。