当前正处在大数据时代,学习大数据理论对于开展大数据应用有重要的意义,通常来说,认知大数据需要通过三个途径,分别是大数据理论、大数据技术和大数据实践。其中大数据理论是认知大数据的第一步,大数据理论重点要探讨大数据的定义、价值、趋势等内容,另外大数据理论与行业有密切的关系。要想更好的学习大数据理论,应该从以下几个角度出发:第一:从了解大数据的特征开始。大数据的定义与大数据的特征有紧密的联系,大数据的特征包括数据量大、价值密度低、数据结构多样、速度快、真假难辨等,这些基本的特征构成了大数据的基本定义,所以要了解大数据可以从大数据的特征开始。第二:理解大数据的价值化过程。大数据的整个体系围绕在数据价值化周围,所以价值化是大数据理论的重点内容之一。大数据的价值化在不同的领域需要多个角色的参与,有的公司具有数据但是欠缺价值化能力(通信公司、保险公司等),有的公司具有价值化能力但是欠缺数据(行业资讯公司),而有的公司既有数据又有数据价值化能力(互联网科技公司),这些公司共同构成了大数据价值化的产业链。第三:把握大数据的应用趋势。大数据概念已经提出多年,技术体系也已经趋于成熟,目前大数据正处在落地应用的初期,未来大数据的一个重要应用趋势在于广大的传统行业的应用,而这也正是产业互联网关心的领域。未来大数据的应用将开辟出大量的岗位,所以学习大数据相关知识是比较重要的。我从事互联网行业多年,目前也在带计算机专业的研究生,主要的研究方向集中在大数据和人工智能领域,我会陆续写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信一定会有所收获。如果有互联网方面的问题,也可以咨询我,谢谢!
产品、流程及业务流程的数字化,加之相应爆炸式增长的大量数据,引发了业务组织内部的剧烈演变。本文将越过信息技术在商业战略中扮演的“工具手段”的传统角色,通过对“什么是大数据?”、“现代公 司如何使用大数据?”以及“如何将大数据纳入企业战略思考中?”等问题的探索来深入思索大数据现象 的含义及本质。随着不同的组织结构将业务处理方式朝着大数据分析方向发展的趋势,我们将锚定“基于资源理论 (RBT)”和“组织学习”作为研究大数据战略的视角。同时,伴随着商业本质越来越数字化,我们试图推出大数据战略的未来四大学术途径供大家商榷。关键词:大数据、战略、理论、资源基础理论(RBT)、组织学习(OL)1. 概述全球数字化的产品、流程和业务模型正在重塑着经营的本质。随着越来越多的企业利用用户点击量、传感设备、技术 创新等手段来推动业务增长,每个行业都得到了迅猛的发展。先进的信息技术、基础设施以及“物联网”的出现,使得企业可以寻找到创新的手段和方法来获取数据,并利用不断扩大、增加数据容量来推动企业的不断创新。信息技术的进步使得数据存储能力日益强大,投资成本变得越来越可承受,为了不错过任何新的市场机遇,许多企业都在将信息技术及其规划整合到了他们的战略思维之中。综合考虑信息技术进步所带来的这些变化,企业家们都会意识到,每个人或设备都成了潜在的数据生成器,例如,消 费者会在日常生活中留下大量的数字痕迹,这些痕迹遍布在购买杂货、服装、交通旅行、查阅资料、居家等过程中,几乎所有的个人活动都能生成数据。也就是说,个人生活几乎都留下了“可查询”的数字记录。设备之间也一改过去单独作为工具 使用的“孤立”现象而被连接了起来,相互之间可以通讯、追溯、跟踪,并向企业价值链上的合作伙伴传输数据、共享信息。当各类数据被汇集到组织中时,组织就成为了 “信息的处理器”。于是,这些组织开始投资引入大量的数据科学人才,并开始建设自己的数据分析体系和数据分析能力,以寻求挖掘数据中隐含的巨大价值,获得竞争优势。显而易见,在遵守并保护个人隐私的前提下,许多组织机构都希望获取更多的消费者数据,并试图解析这些数据中隐含的价值以用于他们自己的战略决策中。由互联网和当前丰富的数字媒体生态系统所产生的大量数据而形成的“大数据”概念已经被大家认同和接受,这也预示着人们对大数据产生、增长、盈利和存在的重要性有了一定的认识。战略理论家和大数据实践者都在努力解读大数据在“商业数字化”进程中所起到的作用;解读大数据举措如何影响组织内部的决策功能;解读大数据如何塑造全新的市场并为组织建立起独特的新战略,打破现行的传统壁垒。许多行业的高管都非常关注大数据项目,并为此投入了大量的资源,希望借助信息数据来增加企业的营销影响力,做好产品选择和业务运行操作,增强企业的创新能力和市场开拓能力,也希望借助大数据开发来更好地监管、衡量和管理好各项业务工作。不过,少数企业却将大数据看作是其制定战略决策的非比寻常的资源,他们认为,信息数据资源是许多现代 创新的源泉,这就使得以大数据为核心的创新商业模式进入了现代市场空间中,打破了长期存在于战略思维中的各种固有的 传统假设方式,有利于企业创造出全新的市场。在理解大数据的出现将如何改变竞争本质时,战略管理领域的学者们将会 发挥出极其重要的作用。尽管此类论述早已开始,但是学者们尚未就“大数据在现代企业及战略管理层面将发挥哪些作用”建立起理论体系。近期的一些研究表明,大数据有望为“组织科学”带来新的理论和实践指导,并有望在企业治理、领导力建设的新战略方法的发展过程中发挥出核心的作用。本文将通过众所周知的组织理论中的资源基础理论(RBT,Resource-Based Theory)的视角进行综合论述,期望引发更广泛的有关大数据管理理论的研究讨论。资源基础理论(RBT)视角为大数据现身于战略决策奠定了必要的理论基础。基于大数据共有的特征,该理论框架主要关注大数据的不同应用,以满足高层决策者们不同的管理期望,也会兼顾到不同组织的基础设施、管理成熟性、发展阶段和实际的能力。资源基础理论(RBT)研究方法的目的在于让人们认识到战略管理领域需求的灵活多变性,以便对数据、技术和战略之间的相互作用能够做到全新的理解。随着日甚一日的经济数字化,学术研究也必须要适应“更好地解析这些全新且独特有趣管理”的现状。此项研究最大益处在于激发对“围绕大数据进行企业战略整合”课题的关注,吸引更多、更广泛的企业家和学者参与其中,引发出更多的打破旧价值链理论模型的诞生,支持商业理念的重构及应用的正向发展,协调商业分析法与战略学术方法之间的有机关联。此理论框架的提出,使得战略研究人员能够有依据去解决该领域里一些重要的问题,不仅为企业应用指明方向,也为学术性研究指出一条条可行的路径。2. 研究背景“大数据”(Big Data)一词专指描述由各种仪器、传感器或基于计算机的交易所生成的大型、多样化、复杂化的纵向数 据集。大数据技术用以应对无法使用传统方法或工具处理分析这些海量原始数据(结构化、半结构化、非结构化)所带来 的巨大挑战,希冀从中提取到应用所需要的有价值的结果。尽管“大数据”(Big Data) 一词的起源仍然存在争议,但大数据的概念已经引发了人们浓厚的兴趣,成功地成为一个蜚声中外的话题。在多数人的认识中,大数据中潜藏着提升行业竞争优势的丰富信息资源。在这里,要准确理解大数据的发展和演进,首先就需要了解数据库管理和存储的发展历程。在上世纪90年代,许多组织都使用关系型数据库(database)来收集、存储自己的数据,这些数据基本上都是结构化数据,与此同时发展起来的数据挖掘技术(Data Mining Techniques)则用来做数据的基本统计分析处理工作,以此得到了对不断增长的数据信息中的价值进行洞察的能力。随着互联网的日益普及和长足发展,更多的数据类型、数据产生方式、数据采集方式、分析研究及开发应用被不断地创造出来,针对非结构化网页(web)内容文本数据的分析走到了前沿,成为数据分析的新挑战课题。这些非结构化数据,例如论坛、网络日志、社交网站、点击流数据日志等构架起了企业与客户之间的“对话”交互平台,一改传统“企业对客户”单向营销方式,成为一种“颠覆式”的新型营销手段。越来越多的移动设备、传感器、支持互联网应用的小工具正在推动分析能力急速发展,促使企业组织陷入了一场“大数据”竞赛,以便应对“大数据” 收集、处理、分析和可视化等需求所带来的挑战。该挑战是艰巨的,因为这些“大数据”不同于以往的数据信息,其规模巨大,具有流动性强、移动化、传感器设备丰富多样等特点。可喜的是,这些创新技术的不断汇聚和由此产生的推动力将 会提高组织的能力,成为企业开创新竞争优势的来源,也会推动企业转变商业模式,打开了创新的新机会、新窗口。在创新、运营效率提升等愿望的指引下,大数据投资出现了爆炸式增长。麦肯锡全球研究所预测到,大数据将给各个 行业都带来显著的好处,例如,仅仅是美国医疗行业,每年度就会有3000亿美元的业务与大数据投资有关,而在美国零售行业,大数据推动营业利润提高了 60%。未来10年,预计将会有大量的资源持续不断地流入到大数据项目中。尽管企业在技术进步方面面临着种种挑战,不过,或许正是如此,一个专门从事大数据收集、存储、分析和解释的大 数据行业就如雨后春笋般地蓬勃发展了起来。众多初创公司忙着搭建大数据平台、开发大数据分析应用软件等,旨在通过 为公共、专业部门的客户提供大数据分析服务的同时,一步步发展、提升大数据分析工具和数据分析的能力,把以往的内部 数据分析的方法远远地甩在身后。也正是因为如此,大数据研究机构也在世界各地的大学中层出不穷地涌现了出来,他们 致力于培养大数据人才,以便为这项日渐走强的业务储备更多的人力资源。从资本市场来看,大数据项目吸引投资达到9位 数(上亿美元)已经司空见惯,一个新兴的高科技行业就这样如火如荼地发展了起来。迄今为止,大数据行业的许多知识都是由身处学术环境(大数据应用企业或大学、科研机构等)的数据科学家们通过 对大数据本质属性的研究、探索而获得的,他们将这些属性概括为8个V:数据量大(Volume)、速度快(Velocity).类型多 (Variety)、准确真实(Veracity)、可变(Variability)、“可行性”(Viability)、“可视化”(Visualization)、“价值 ”(Value)。为了 行文方便,我们简称这些属性为“8个V”。2.1 大数据的特性——8个“V”早期的大数据概念建立在三个特性之上:体积(Volume)、速度(Velocity)和多样性(Variety)。体积(Volume),代表数据量大,描述了大数据存在的规模。一些企业或组织,每小时、每天都会产生或收集到多达 1TB (Terabyte , 1TB=1024G_译者注)的数据,这是一种纯粹意义上的爆炸式数据增长。事情到此才刚刚开始,随着社交媒体大规模的社会化趋势和技术的显著进步,数据量还在继续增长。可喜的是,存储技术的发展和存储成本的持续降低, 使得这些“海量”数据的存储管理在经济上更加可行。第二个核心特性速度(Velocity)指的是:数据处理速度、存储速度和检索速度。伴随着越来越多的传感器的使用、 各种连接设备的不断引入以及全球范围内越来越多的软件应用,数据流转的速度越来越快。技术的日新月异,也使得在多媒体介质中追踪数据、直观地观察数据变为可能。多样性(Variety)。除了我们熟悉的传统的软件程序产生的数据,更多的数据来自于网页(web)、网页日志文件、搜索 索引、社交媒体论坛、电子邮件、文档、传感器数据、图形、音频、视频片段、GPS信号等等,这些数据不同于我们熟悉的“传 统数据”,它们更多的是半结构化、非结构化的数据。随着大数据现象日渐被重视,又有一些大数据特性被人们识别总结了出来,例如,越来越多的研究人员同意准确性 (Veracity)也是大数据的一个特性。“准确性”与数据质量紧密相关,为了确保数据的及时、准确、一致、完整等质量特性, 需要将数据质量划分为不同的维度进行分析研究。另有一些学者认为可变性(Variability)是大数据的又一个重要特性,这是一种将数据变化本质作为研究的视角,是数据可变性问题的讨论基础。就此而言,数据的定义、意义都在发生着深刻的变化,这一切变化均源于不断发展的媒体形式(博客、社交媒体、视频等) 及从中收集、整理、存储这些庞大的非结构化数据所带来的全新挑战。同理,一些人认为’数据相关性”是另外一个重要的因素。相关性,或称可行性(Viability)关系到一种与企业决策相关联的数据分析方法,这种分析方法旨在选择一些分析数据来 预测组织决策的结果,这无疑对企业组织来说是非常重要的。还有,可视化(Visualization)也是大数据一个非常有潜力 的重要特性,该特征将数据分析结构进行了易于理解的描述。最后要说的是越来越受关注的大数据价值(Value)这个特征。从战略角度来看,价值(Value)最能引发人们的对大数 据分析的兴趣,本质上,这个特征描述的是大数据的财务属性,即如何利用数据以财务收益或其他收入的方式(例如:运营效率、知识创新等)使得企业组织获得利益。利用数据解决运营挑战,抑或是提高组织效率,这两种数据使用倾向都将会显著影响到企业对数据价值的理解。从两个方面来看,一则企业组织本身也有一些私有数据,可供自己使用或有偿分享产生价值,但这与大数据产生的价值有着本质 上的不同,大数据的价值在于其所使用的分析工具对数据价值的深入挖掘呈现,以及交互使用这些数据及数据结果所带来 的全新的价值。尽管是不是应该用这几个特性来描述大数据的有效性还存在一些争议,但大数据对当今社会、组织以及组织内部的影 响却几乎没有争议,大家的认同化作为一场场针对大数据的研讨、论坛或对话,也促成了企业组织对大数据业务不断追加 的投资。这些现象表明,大数据对组织战略重塑和未来发展方向的思考有着重要的作用。2.2 大数据对企业战略影响的演进现今,大数据属于热门产业,几乎每个行业都已经对大数据进行了大量的投资。尽管如此,企业决策者们在制定战略 决策时却往往脱离了大数据投资的价值主张,因此上,从事技术、数据、信息、知识管理的各个岗位在企业战略决策中的 作用不断地演变着。在大数据应用的标准和最佳实践尚未形成之前,企业高管们还需要尽可能地去寻求这方面业务指导。数据驱动的业务模式仍然在不断的进步和发展中,各种应用还有待于探索和验证,但有研究表明,IT能力对企业绩效 增长有着明显且积极的影响。具体来说,在以下几个方面,大数据都会帮助企业获得可能性极高的增长:借助大数据分析,企业组织将获得竞争优势,显著超越同行;借助大数据分析,企业组织将会获得指导日常业务运营的洞察能力;借助大数据分析,企业组织在制定未来战略时将获得科学的指导。这些发现表明,企业可以采取不同的大数据策略和方法来获得目标价值。在当下这个数字经济的新时代,大多数企业都会关注大数据业务,其中一些企业甚至会利用大数据分析所激发的新创 意来解决传统的业务问题,这是一种创新的做法,改变了常规的决策方法(从IT系统中提取信息资源,通过分析、决策, 将新的能力分配到企业的价值链中去)。营销、采购、库存管理、运营、客服等都可以通过这种流程创新而更高效、更有效地进行运作,这就是投资大数据带来的信息驱动力。以零售来举例,零售企业可以通过大数据营销分析来决定广告投放的 有效性,找到改进产品、提高客户获取率、保留率的办法,而获得这些办法灵感的源泉就是数据。源源不断的创新引导着 企业周而复始地进行着不断的革新,推而广之,几乎每个行业都可以照搬照抄,开启类似的创新和改进。学术著作、从业人员手记或私营企业白皮书都在描述着一个个不断演变的竞争格局,同时也表明,一些创新的竞争公 司已经出现。这些创新企业采取“以信息为中心”的全新数据驱动的方法,涵盖了从企业决策到业务运营的各个方面。比如,采用数据分析方法来衡量一些项目的成功与盈利能力之间的关系,这种重视促使企业建立起了非凡的数据资源池和数据驱动流程,增强了企业通过数据洞察学习的能力,为企业赢得了将“新创意转化为新探索”的机会,这是传统市场无法想象和做到的。这些“学习型组织”通过不断增加的数据资源来重新构建企业的生态系统,开发先进的技术分析工具和能力,在与 传统企业角逐时,这些工具使其如虎添翼。3. 理论基础大型企业、对冲基金、企业家们都在努力应对大数据带来的挑战,学术界人士也在努力研究大数据在商业活动中的作用、输入及输出方法,研究如何能够更好地运行大数据项目。虽然信息系统、供应链管理已经有诸多活跃的研究成果,但在管理领域,具体来说就是战略管理领域,大数据研究还鲜有文献。截至目前,多数针对大数据的战略研究还都停留在由麦肯锡(McKinsey)、Oracle和安永公司(EY)的咨询白皮书中。因此,战略学者需要大力发展大数据理论及方法的研究,以便更好地理解大数据在如何塑造战略决策方面的价值,挑战传统战略概念在新商业模式下的核心涵义。借助大数据理念的影响力,我们将大数据引入到战略管理理论中°RBT――资源基础理论(RBT,Resource-Based Theory)和“组织学习”是目前各类公司最常用的两个应用理论,借助该理论,大多数企业都会在其职能业务中采用分析方 法以获得可持续的竞争优势。不过,RBT及“组织学习”理论是少数真正有高水平分析能力的企业的组织哲学,对于其他企业来讲,这些理论仍然难以理解应用。3.1 资源基础理论(RBT)与大数据站在RBT理论视角,许多文献都关注到了提高现有市场效率和效力的问题。遵照RBT原理,假设竞争对手之间存在资源差异,同理,作为企业资源之一的大数据也就具有了稀有、难以复制、不可替代等资源特点,即大数据也会成为企业 独有的潜在竞争优势。基于此推论,RBT理论在“企业数据资源、决策分析能力、与战略决策紧密相关”等方面就更具说服力。尤其是在面对动态变化时,数据的重要性则更加明显。从数据中提取到应用知识和获取洞察力将会最大限度地增强 企业适应动态变化的能力,形成可用的业务模型。RBT原理几乎适用于所有行业。在每个各行业中,如果对大数据所提供的各种机遇进行深入研究,就会发掘出相当大的潜在价值,这同时也推动了数据分析服务行业市场价值的显著提升。除此之外,数据资源及其独有的特性也预示着数据存在着某种程度上的稀缺性。试想一下,即使有着类似的信息基础设施,不同企业想得到一致或高仿的数据资源也是难度非常大的,因为这还关系到企业能力的不同。如果有谁希望一味模 仿成功企业,不言而喻,投入的成本将会极其高昂却未必会奏效。因此,通过对大数据、企业IT能力、企业绩效之间关 系的实证研究可以推断得出:依赖直觉决策是不能够取得数据驱动的战略决策和运营规划的,直觉决策与数据驱动决策两者不可同日而语,但可以形成互补。鉴于上述特点,大数据以及处理、分析、应用既可以与现有决策、管理方式相辅相成,也可以成为企业获得或保持竞争优势的一种重要手段。正是因为于此,许多企业都对大数据进行了一些投资以期获得这种互补性能力,使得可以利用大数据来产生更深刻的商业洞见,优化现有的业务和管理流程。在当前市场情况下,创造并利用这种优势以寻求解决困扰经营和盈利能力的解决方案,一直都是企业的惯用做法。3.2 Capital One“利用大数据来评估消费者的消费行为并由此关 联消费者的个性化需求”就是一个很好的例证。例如, 他们利用大数据分析并定制全新的、个性化的方案,以便更有效地管理还款风险。另外一个类似的大数据分析应用是,他们借助对 车载通信设备的逐步扫描而衍生出的实时分析,提高 了对危险驾驶行为的识别能力。[1] Capital One,美国第一资本投资国际集团下的 “Capital One公司”是一家以投融资及基金管理为基础, 集国际贸易、项目开发、投资银行业务为一体的多元化 国际企业集团,总部位于美国特拉华州。3.3 可口可乐为了寻求推动企业进步的各类知识,借助 Freestyle fountain触屏式饮料机,该公司不仅可以为消费者提供多种混合口味的饮料,满足消费者创新自制饮料、获取独特口味的需求,还可以获取到位置、时间等相关消费数据,成为可口可乐改善供应、补充库存和业务(口味)创新的依据,辅助可口可乐进行分析决策。可口可乐公司的 Freestyle fountain 触屏式饮料机通过这些案例可以看出,大数据是商业智能(BI) 分析的延伸,不仅提高了效率和有效性,而且符合技 术使用的既定惯例,此应用的愿景不是用数据或高级分析来改变战略,而是更好地支持企业选择战略,其内在机制就在于:根据策略的需要来选择相关的数据;由战略来定义和驱动特定的衡量指标;分析结果支持管理者根据战略的要求来更好地进行监管和控制。尽管如此,随着信息技术、在线活动、移动计算的发展,越来越多的企业开始致力于借助大数据技术来保护自己私有的数据资源,这种做法似乎在表明。随着时间的推移,“开放”的数据资源将会不断递减,会越来越稀缺,那些大数据服务企业的业务优势也会逐渐消失。不过,上述情况对一些已经具备了领先数据分析能力的企业来说并非如此,他们的关注焦点不是数据的私有化保护及存储,而是将现有的数据能力拓展到企业自有价值之外,与相关伙伴动态分享数据价值;他们希望大数据分析能辅助企业改变业务性质,对核心的产品制造、工作流程、业务模型等进行革新,进而对企业供应链和业务 的多样化产生明显影响;他们关注数据流动带来的价值,不断洞察,不断寻求,学习数据挖掘分析获得的知识,探索新市场、新机遇,而不是“死守”数据贮存。在下面的章节中,我们一起来探讨一下大数据与“组织学习”之间的相互影响。3.4 大数据与组织学习资源基础理论(RBT)为企业的长远发展指明了方向,即通过教育和学习,企业能够获得具有独特竞争优势的特殊资源, 在此,“组织学习”就是企业着手发展独特资源优势的方向性建议,指明企业获取知识和能力这种特殊资源的基本途径就是“学 习”。不过,虽然组织学习已经被管理类研究文献频频提及,但仍然缺乏共识性的定义。Crossan口和March认为,创新要求组织要不断探索和学习新的方法,并利用好他们已经具备的知识,在这点上,本文与Crossan及其追随者的观点是一致的。[2] Crossan认为组织学习是一个战略更新的动态过程,组织学习发生在三个层面:个人、团体和组织。组织学习由4个子过程组成:直觉、解释、整合和制度化:直觉,就是对模式或可能性的认知;解释,是对一种见解或观点的阐述说明;整合,是个人之间形成共同理解并采取协调行动的过程;制度化,确保了学习的常规化执行。尽管Crossan和他的追随者们主张建立一个包括个人、团体和组织在内的多层次的学习架构,但是我们看到,由于大数据带来的技术进步,这个学习框架正在面临着崩塌的可能,这是因为人工智能(AI)和机器学习可以通过分析和编码来识 别(认知)模式或可能性,这时,个人经验毫无用武之地。大数据技术支持下的组织学习:大数据使得“直觉”过程不再需要借助个人的经历,而是通过对大量数据的大规模分析来获得;借助成熟可用的大数据可视化分析工具,一切“解释”都可以简化;在“整合”层面,虽然跨组织的知识集成仍然需要企业家或者有远见的领导进行思维,亦或是跨组织购买后获取,但如果面对的是一个企业的内部“整合”,分析性思维方式则可以逐渐简化这个“整合”过程。知识的创造、获取、转移、分配是组织学习的特定的要素。借助隐性和显性知识之间的持续对话,在平衡探索与时间 之间关系的过程中,组织知识被细化并通过操作执行累积创造了出来。因此,知识获取就是从操作执行的经验中学习,在记录、 研究与组织环境、业务相关信息的过程中获得。当知识被转移到组织内部更多的部门中时,知识会进一步得到利用,部门 的能力也由此增强,知识的潜在价值也随之被动机、机会所验证。与此同时,依据知识的创造性、有效性来持续改进制度, 降低制度重建的复杂性和困难程度,成就了企业的竞争优势。有了上述对知识管理能力的理解之后,很容易就可以推断出,资源基础理论(RBT)就包含在一个组织的学习框架中。虽然新知识是由人(并越来越多地借助技术)开发的,但组织及其战略领导人都会在阐明和扩大这些知识时起到关键的作用。先进的技术手段、不断扩大的数据资源以及庞大的资金储备都使得学习型组织可以避开和绕过行业发展的障碍,开拓出新的业务领域。例如,Alphabet( Google母公司)就通过数据和知识来探索和拓展新的市场机会,而不是拘泥于已有的网络搜索和广告业务。另外两家知名公司Apple和Amazon也致力于推动生态系统、新市场的开发建设,数据分析和组织学习是其创新能力的引擎。在这些企业中,高层管理者着力于培养一种成长性的组织心态和企业文化,那就是,积极拥抱新技术,容忍追求新知识过程中可能遇到的风险,以全新的、前所未有的方式推动组织前进。需要强调的是,这些企业组织在探索、开发这些 创新业务时并不仅仅出于追求盈利,他们关心的是如何建设并强大自己的数据资源能力,为开发新的服务模块创造机会。由于这些未来的服务模块极易与现有的平台相融合,可想而知,未来,他们的服务能力、服务水平都会得到不断的提升。事实上,对数据流量的密切关注为学习型组织提供了机会。通过扩展数字生态系统将会构建起组织不断寻求新的方法来发展产品和服务的动态业务能力,推动组织从数字化迈向货币化。在此,这些新产品、新服务战略决策的是基于以下3点做出的:人才潜力开发指数分布的学习能力消费者影响力生态系统有着学习视角的组织,不仅会将数据视为改进现有价值链的可用资源,而且还能预见数据的潜在价值,发现收集新数据的独特渠道。这些组织都会设想如何利用数据获得新颖的原始知识,以此来服务于未来商业探索活动,得到全新的市场机遇。下面,我们继续通过RBT和组织学习理论来解读大数据的8个“V”特征。未完待续……作者:Mattew J. Mazzei David Noble本文由@石基商业评论翻译发布于人人都是产品经理。未经许可,禁止转载。题图来自Unsplash,基于CC0协议
大数据分析相比人为经验具有数据流丰富、持续性好、 存储计算便捷等优点,可以帮助企业摒弃传统的战略规划方式,通过科学的数据分析来识别企业组织的市场机遇。4. 通过RBT和组织学习理论来观察大数据的8个“V”特征在诸多大数据研究文献中,数据容量(Volume)、速度(Velocity)、多样性(Variety)常常被视为大数据的主要特征因素, 这些越来越多、越来越多样化、越来越快产生的数据直接影响着企业或组织的决策能力,当然,也正是具有这些特征的大数据资源才构成了企业组织异于竞争对手的优势。采用数据化战略的公司首先需要在数据收集、存储方面进行大量的投资,建立起处理这些大型、多样化、复杂的大数据的分析平台,这是大数据分析的必要基础设施。这个合理、高效、能够基于大数据进行预测分析的基础系统使得企业相对于竞争对手而获得了起跑的优势。部署这套基础分析体系的目的是为了寻求改善、解决现有的业务、决策问题的方法。不过, 需要说明的是,这套基础体系的维护、数据分析等工作可以通过外包给战略合作伙伴来实现,这样做的好处是可以扬长避短,发挥合作伙伴在大数据业务中的效率和优势,使双方都能够将主要精力聚焦于部署大数据分析所设定的目标上。无论是自建还是外包,这些有关大数据的工作方案都要实现功能的本地化,实现既定的全局挑战目标,而非一个部门或组织单元的局部成功。同样,学习型组织的大数据业务目标也将延伸到人力资源、财务管理、业务流程、社交合作、资本投资等更高的业务管理层级,并为提高这些业务的管理效率和价值而努力。今天,随着数据多样化和不断的累积增加,企业是值得在建设数据仓库、组织间互联互通网络、强大的计算分析能力等方面进行投资的。虽然在特定的价值链活动中聚焦基于大数据分析的创新具有很大的价值,但真正影响战略管理的大数据分析是在企业组织对数字化竞争威胁和新的市场机遇有所认知之后。这时,即使是普通员工也会对大数据如何重塑企业及其竞争格局有着全面的认识。投资大数据系统并获得大容量、多样性以及更快处理速度的数据并不能让学习型组织得到决策的能力,事情远非想象的那么简单。正确的做法是,基于对大数据战略的认知,对庞大的数据流进行分析,才有利于获得准确、可变、高可行性、可视化、更大价值的结果。因此,对比数据资源和学习视角的关系之后,大数据8大“V” 特性的深刻内涵更具有意义,这是因为,以资源为导向的企业组织竞争能力主要集中在资源的当前优势上,大数据的8大特性就是围绕“这种资源的有限性”来考虑管理、决策问题的。4.1 容量、准确在传统数据库管理时代,由于数据的产生受限于既定的业务过程,就此衍生的管理决策就需要主观上充分信任这些数 据的质量,以便能够实现对业务处理、盈利能力的把控。可是,这些数据并不能够全面反映企业的现状,由此顺序推导就会得出,企业的管理决策也会随之限制在所收集、分析的数据范围之内,决策所依据的“数据准确性”仅仅是受限后的“准 确性”,这对于以资源为导向的企业组织来说,基于此的业务及盈利能力的提升也会受到限制。如果基于资源而获得竞争优势是企业的竞争战略,但他们却只感兴趣预先设定的数据和度量标准。那么,大数据潜在的增强企业业务和管理能力的价值就不会被他们所认知。4.2 动态、可变许多情况下,数据的“可变性”经常被一些企业组织所忽视,他们可能都会专注于现有的价值链和度量标准,希望在一段时间内能连续跟踪分析数据并以此评估改进业务,但这种“刻舟求剑”式的偏见化思维却僵化了决策能力。因此,充分认识数据的“准确性”质量和“可变性”演进对学习型企业组织至关重要,这两个数据特性为决策管理提供了独特的视角,使得企业组织能够不断拓展业务思路,参与到数据生态扩展中。学习型组织在基于数据分析来理解新机会和更新战略方面是开放性的,掌握数据及其来源对于企业把握决策时机及随后的投资非常重要。虽然数据存储、累积带来了相关的投资风险,但可评估的良好的数据质量却平衡了这个不足,与此相比,这种风险投资还是划算的。对数据价值有了如此深刻认知之后,这些企业组织就会不断寻求和增加数据流量,并期望动态的数据能够满足企业学习和认知的需求,进而从中得到掌握市场变化的能力,创造出新的商业机会。4.3 敏捷、快速提高数据的敏感性和反馈质量有助于开发出更好的组织管理能力,进而确保企业在更宏大的市场中借助数据资源的力量开发出新的商业机会。相反,那些传统、数据管理能力不足的企业组却往往忽视大数据的扩展分析、预测分析的作用, 甚至对此几乎没有认知。4.4 可行、可视受环境因素的制约,情景分析会受到组织及市场传统观点的阻碍,由此导致数据的可行性、可视化在那些资源为导向 的企业中也受到了限制。现实的情形是,很多企业高管虽然明白大数据分析的重要性,打破了一些传统的数据孤岛的禁锢,但还不具备情景分析的能力。重复一下我们先前的观点:是战略决策确定了企业组织需要捕获、收集分析什么数据。也就是说,这些数据与决策目标明显相关。由于情景分析能力缺欠,这些企业组织目前还仅仅利用可视化分析工具来处理预设的度量,形成的可视化数据虽然有用,但却不能支持战略决策。4.5 学习型组织再看一下学习型组织是如何做的。学习型组织的管理者利用大数据系统从许多数据流中收集数据,虽然这项工作极具挑战性,但是这些企业组织却开发出能够识别、解释、预测新机会的分析功能,他们的视野甚至可以借助大数据分析而扩展到传统市场之外。不过,这项工作还是有些难度的,那就是,企业组织需要学习或开发自己不熟悉的度量指标。尽管这些探索不是盲目的。但在微茫的希望的指引下,与传统、既定的社会、行业、组织的思维方式进行对决仍然需要极大的勇气。学习,使得这些敢为人先的企业组织能够捕获到隐藏在深远数据流量中的最准确的支持方案,虽然这其中可能会有风险, 但回报也可能更加丰厚。借助此方式,灵活、可视化帮助管理人员洞察到隐藏在数据中的可行性,辅助企业决策者摆脱了仅仅依靠个人经验和才华进行决策的束缚。最重要的一点是,那些积极参与数据驱动决策的企业组织从他们投资的大数据项目中获得了价值,他们得到了基于资源优势、优于传统方式的更好的商业决策,改善了业务状况,创造出了新的价值。通过大数据学习,员工的工作效率提高了;供应商关系改善了;物流配送及库存管理能力增强了;顾客的服务质量得到了改善和提升。面向资源的管理方法改善了企业与关键利益相关者的关系,这种改善都可以通过最终的财务、运营指标来识别和度量。学习型组织通过动态捕获知识所发展出的全新的认识、学习、执行力,弥补了传统竞争能力的创造方法,为企业开发新市场、创新商业模式打开了新的入口。通过有效整合、跨组织传播新的知识,推动了企业的创新和创业精神,使新的商业模式能够着眼于拓展现有的业务,扩容服务生态体系,增加客户附加价值,最终锻造出高水准的品牌忠诚度。因此,学习型组织遵循“已知知识+促进学习”的模式,远远地将竞争对手甩在身后。好处如此显著,但现实情况是,很多企业、行业都还没有触及到大数据分析的潜在价值。在表2中,我们总结了大数据特征是如何影响企业“基于数据资源和学习导向”来确定数字化商业战略的,图1进一步 描述了这些影响是如何跨组织进行的。表 2 :大数据 8 个“ V”如何影响企业在基于“数据资源和学习导向”理论的指导下来制定数字化战略5. 大数据与未来管理学术研究类似于工业革命,数字化和大数据分析价值的不断增长也正在引发一场大规模的全球产业颠覆式革命。这场革命的结果就是,商业模式和战略思维正在发生着深刻的变化。在过去的20年里,通信和计算机技术得到了飞速的发展,我们的电脑不是放在桌子和房间里,而是拿在手上;我们的邮件不是放在桌上的信封,而是一份份电子邮件。我们已经习惯了这一切,但也面对着数据爆炸式增长而引发的长期、昂贵、艰巨的数据处理任务,就连我们进行组织研究的环境、如何进行研究都需要随着这些变化而进行调整,并做出改变。这项研究工作的重点是:有必要反思和检查现有的研究框架、变量、测量方式是否适用于当今的数字化商业环境。通过上述讨论,在数字化时代,早期的研究范例一一RBT所扮演的重要角色与组织学习的关系是显而易见的。然后,学无止境, 学者们虽然马不停蹄地就技术与战略的相互关系进行着研究探索,但这些研究和理论探索仍然赶不上时代的变化发展的需要。为了解决这个滞后的问题,我们将从战略、管理领域等入手提出一些新的解决路径。5.1 路径A:发展管理理论在本篇中,通过观察大数据如何以新颖的方式与RBT和组织学习相互作用,扩展了大数据理论的发展。显然,这不是大数据现象中发现的唯一基础理论,当然也不是唯一可能受到竞争格局变化挑战的基础理论。专家学者们还是有一些机会来确定一些独特应用的,比如在战略、创业、人力资源等领域仍然可以开发研究新的大数据现象理论框架,扩充这些领域 的管理理论,并为之开拓出新的应用领域。在此,现有的知识、知识管理、文献等都是很好的研究基础,会为进一步发展理论奠定基础。作为管理理论,其本身具有这在任何时期、任何情况下都有普适性的特征,但当面对激烈的创新时期,普适性也将会受到挑战。面对时代的挑战,管理领域应该重新考虑、审视已有理论,推动相关联的理解,提出新的假设,探索其他的新的解释,但也不要轻易说出传 统管理理论将会失效的结论。大数据时代,数字化是一场大规模的经济转型运动,各种理论都应该重新进行研究和审视。5.2 路径B:研究与数据分析相关联的因果变量在大数据时代,除了用理论来更好地解释组织的决策本质外,探索企业组织能够利用数据分析来获得竞争优势的背景和前提条件也是十分必要的。是什么推动了企业转型为数据型组织?有哪些特点或细微差距推动了企业转型为学习型组织?哪些外部环境因素触发了这些改变?毫无疑问,那些常见的解释是:有远见的领导、企业文化、异质的战略资源、竞争环境等。但是,作为学术研究,就应该探索找到引发变化的真正特征和环境压力因素,顺着这些引发组织转型的有影响的压力因素,找到相应的数据,并对其进行分析。通过对全球或垂直行业的定性、定量调查进跟踪,将大数据分析与战略思考相结合,准确揭示出竞争优势的细节很有必要。例如,CEO是否接受过商学院的教育?他们是否拥有STEM(科学、技术、工程、数学)背景?他们在其组织中是短期任职还是长期任职?他们是创始人吗?企业转型之前的文化是如何形成的?从一开始,数据分析就是企业的核心业务吗?产业 周期的本质是什么?所处环境中资源丰富吗?该企业是行业领导者还是跟随者?有除数字化以外的颠覆性创新吗?作为研究者,有足够的空间来探索上述或更多层面的问题,以便更好地理解大数据对组织带来的全面影响。5.3 途径C:重新考虑结果和后果大数据与颠覆性的商业模式结合之后,创造了一个重新定义组织绩效的机会。每个行业都不能再使用简单的盈利能力、 传统财务比率来描述绩效,新的绩效衡量体系更多地与用户数量、数据流的丰富程度、数据收集存量、业务活动创造的新知识等有关。如果要全面重新定义组织绩效,就需要重新评价对竞争优势的定义,并将现实中前后关联的新业务环境考虑 在其中。如果不了解精通数字分析的企业高管是如何看待特定产品绩效的,我们就无法正确地测试大数据环境下预测的假设与 理论之间的关联。弥补这种欠缺的方法是,深入、定性地研究分析数字化转型企业的案例,研究那些已经建立大数据管理的企业的数字,仔细地对这些公司如何衡量成功进行研究。将技术分析性领导者的公司与传统领导者创建的公司进行比对,找到差异,正确理解差异对业绩造成的影响。5.4 路径D:细化对指定变量的度量大数据的使用和应用彻底改变了业务流程和操作方法,这不仅需要重新构建理论,还需要构建全新的对公司级、部门级、 作业单元级的测量模型。上节中,我们讨论了企业定义理想绩效测量方式的变化,未来,绩效衡量将会与学习型组织理论相结合,进而对组织绩效及价值提出全新的衡量方式。数字化工具和数据资源也可用于管理理论的定性测试。当学者们对如何开展业务、企业组织生成了哪些数据资源、流量有多大、如何匿名获取数据等等都需要进行展开研究时,数据代理公司等宏观层面的数据也会进入到他们的研究范围内,这对整个社会的数据化都将产生全新的意义。学习型组织有着迥异于普通企业的人才战略,他们会通过招聘引进博士级别的研究人员来增强自己的分析能力。作为理论研究人员,必须着眼于这种人才战略来构建自己的预测分析模型,这不仅有助于理解学习型组织与大数据之间的关联,也会超越当前的一些研究方法。要想深入了解这个论点,我们来看看Google的那些分析型的经理、学者、学生对大数据所具有的浓厚兴趣就会不言而喻。在此,人力资源与组织(数据)科学家携手,通过大数据分析,就会打造出这种基于现实却行之有效的人才战略,而不是传 统的面试、看学历、凭经验等等表面化的人才识别。对于希望创造新理论的学者来说,精确的管理度量不仅重要,而且也是更好理解大数据与组织之间关系的一种手段,由此构建起全新的商业战略及学科实践体系。通过可以准确衡量目标对象,大量学术性的、实践性的洞察被挖掘了出来,这些洞察非常有利于商业学术研究。我们有理由相信,今天的大数据组织理论研究和实践,一定会在未来的明天开出绚烂的花朵。大数据组织战略理论可以让组织科学重新焕发生机,点燃组织理论学者及大数据研究者的工作热情。6. 结论通过上述大数据IT能力与企业竞争优势之间关联的讨论,我们认为,技术资源、技术能力决定了企业采取什么样的战略进入市场。大数据分析相比人为经验具有数据流丰富、持续性好、 存储计算便捷等优点,可以帮助企业摒弃传统的战略规划方式,通过科学的数据分析来识别企业组织的市场机遇。为了更好地理解组织的发展,强化数据资源及数据分析就特别具有战略意义。现今是数字化的时代,数字化管理正在成为新一代商业模式的核心,虽然对于大数据实践是否能够为企业提供持续的竞争优势还存在相当大的争议,但在业务分析、组织流程再造和创新方面,大数据还是为那些积极主动的企业带来了大量的机会。单一的数据资源存在被模仿的可能性,但对于独有、动态的数据,模仿成本高且几无成功“抄袭”的可能,这些数据会为战略决策和创新提供独有的价值,并转化为新的知识,其灵活性、创新性能够帮助企业开拓市场,创造新的商业机会。由于大数据在改变社会经济政策及经济研究方面能够发挥出较大的作用,我们有必要对大数据技术和组织战略之间的相互作用进行重视和重新研究。比对传统战略思维企业与大数据思维的优秀企业之间的战略差异,并有意识地寻找缩小差距的方式,就能很好地检验管理理论与现实的匹配关系,学者们也会由此抹去管理理论的天真、空想,洞悉到现实世界的真实和复杂性。作者:Mattew J. Mazzei David Noble本文由@石基商业评论翻译发布于人人都是产品经理。未经许可,禁止转载。题图来自Unsplash,基于CC0协议
作者:CDA数据分析师大数据分析与数据分析这几年一直都是个高频词,很多人都开始纷纷转行到这个领域,也有不少人开始跃跃欲试,想找准时机进到大数据或数据分析领域。如今大数据分析和数据分析火爆,要说时机,可谓处处都是时机,关键要明了的一点是,大数据分析和数据分析两者的根本区别在哪里,只有真正了解了,才会知晓更加适合自己的领域是大数据分析师还是数据分析师。毕竟职场如战场,时间就是生活,不容儿戏,更不容怠慢。下面我来好好告诉大家两者的本质区别到底是什么!大数据分析:指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据分析指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理,因此不用考虑数据的分布状态(抽样数据是需要考虑样本分布是否有偏,是否与总体一致)也不用考虑假设检验,这点也是大数据分析与一般数据分析的一个区别。数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。大数据分析与数据分析最核心的区别是处理的数据规模不同,由此导致两个方向从业者的技能也是不同的。在CDA人才能力标准中从理论基础、软件工具、分析方法、业务分析、可视化五个方面对数据分析师与大数据分析师进行了定义。【数据分析师的要求】数据分析师的理论要求:统计学、概率论和数理统计、多元统计分析、时间序列、数据挖掘。工具要求:必要:Excel、SQL可选:SPSS MODELER、R、Python、SAS等分析方法要求:除掌握基本数据处理及分析方法以外,还应掌握高级数据分析及数据挖掘方法(多元线性回归法,贝叶斯,神经网络,决策树,聚类分析法,关联规则,时间序列,支持向量机,集成学习等)和可视化技术。业务分析能力:可以将业务目标转化为数据分析目标;熟悉常用算法和数据结构,熟悉企业数据库构架建设;针对不同分析主体,可以熟练的进行维度分析,能够从海量数据中搜集并提取信息;通过相关数据分析方法,结合一个或多个数据分析软件完成对海量数据的处理和分析。结果展现能力:报告体现数据挖掘的整体流程,层层阐述信息的收集、模型的构建、结果的验证和解读,对行业进行评估,优化和决策。【大数据分析师的要求】理论要求:统计学、概率论和数据库、数据挖掘、JAVA基础、Linux基础。工具要求:必要: SQL、Hadoop、HDFS、Maprece、Mahout、Hive、Spark可选:RHadoop、Hbase、ZooKeeper等分析方法要求:熟练掌握hadoop集群搭建;熟悉nosql数据库的原理及特征,并会运用在相关的场景;熟练运用mahout、spark提供的进行大数据分析的数据挖掘算法,包括聚类(kmeans算法、canopy算法)、分类(贝叶斯算法、随机森林算法)、主题推荐(基于物品的推荐、基于用户的推荐)等算法的原理和使用范围。业务分析能力:熟悉hadoop+hive+spark进行大数据分析的架构设计,并能针对不同的业务提出大数据架构的解决思路。掌握hadoop+hive+ Spark+tableau平台上Spark MLlib、SparkSQL的功能与应用场景,根据不同的数据业务需求选择合适的组件进行分析与处理。并对基于Spark框架提出的模型进行对比分析与完善。结果展现能力:报告能体现大数据分析的优势,能清楚地阐述数据采集、大数据处理过程及最终结果的解读,同时提出模型的优化和改进之处,以利于提升大数据分析的商业价值。综上大数据分析与数据分析的根本区别就是分析的思维与分析所用的工具不同。大家在求职或转行过程认清自己对两者的偏好和自己的兴趣所在,以及自己的能力更适合在哪个领域发挥,还有自己所在城市对两者的职业需求,综合天时地利人和三个条件,我们才能做出更理智更客观更科学的抉择。
人民网贵阳5月27日电(王秀芳)5月27日,由大数据战略重点实验室研究撰写的最新研究成果《块数据5.0:数据社会学的理论与方法》正式出版发行,《块数据2.0》英、日、韩文版同步发行。至此,一个从1.0到5.0的块数据理论体系基本建构完成。据了解,块数据是贵阳发展大数据理论创新和实践探索的产物。《块数据》建构的是以人为原点的数据社会学的理论与方法,受到政界、学界、业界的持续关注并正被翻译成英文、日文、韩文等多种语言。1.0到5.0块数据理论体系研究出版的过程,也是贵阳探索大数据发展规律、把握大数据未来发展趋势的过程。2015年,大数据战略重点实验室创造性提出“块数据”概念,研究出版了《块数据:大数据时代真正到来的标志》,并引起强烈反响。2016年,《块数据2.0:大数据时代的范式革命》出版发行,指出块数据是大数据发展的高级形态。2017年,大数据战略重点实验室进一步深化块数据的核心价值,研究出版《块数据3.0:秩序互联网与主权区块链》,重构互联网、大数据、区块链的秩序与规则。2018年出版的《块数据4.0:人工智能时代的激活数据学》认为激活数据学是超数据时代的解决方案。2019年,《块数据5.0:数据社会学的理论与方法》聚焦以人为原点的数据社会学范式,围绕数据进化论、数据资本论、数据博弈论,探讨人与技术、人与经济、人与社会的关系。大数据战略重点实验室主任连玉明表示,对块数据的认识和理解正随着数据价值的挖掘不断深入。《块数据2.0:大数据时代的范式革命》英、日、韩文版理论创新成果向全球的发布,标志着块数据正从贵阳走向世界,不仅向世界发出了大数据时代的中国声音,还向全球传播大数据发展的贵阳模式。
贵阳网讯 大数据战略重点实验室是贵阳市人民政府和北京市科学技术委员会共建的跨学科、专业性、国际化、开放型研究平台,是中国大数据发展新型高端智库。2015年以来,陆续推出了《块数据》《数权法》《主权区块链》“治理科技三部曲”等一批有水平、有分量、有影响的重大理论创新成果,成为历届“数博会”对外发布的重大成果。五年来,大数据战略重点实验室多部著作被译为英、日、韩等多语种文字,在国内外发行超过30万册,抢占了大数据理论创新的战略制高点。在数博盛会来临之际,我们对这些代表性专著进行了不完全梳理,以飨读者。块数据:大数据时代真正到来的标志块数据已由中信出版集团连续出版五部,从1.0到5.0的块数据理论体系初步建构。2015年,大数据战略重点实验室创造性提出“块数据”的概念,研究出版《块数据:大数据时代真正到来的标志》,在业界引起了强烈反响。2016年,探索性地提出“块数据理论”,研究出版《块数据2.0:大数据时代的范式革命》,指出块数据是大数据发展的高级形态。2017年,进一步深化块数据的核心价值,研究出版《块数据3.0:秩序互联网与主权区块链》,重构了互联网、大数据、区块链的规则。2018年,研究出版《块数据4.0:人工智能时代的激活数据学》,认为激活数据学是超数据时代的解决方案。2019年,研究推出《块数据5.0:数据社会学理论与方法》,聚焦以人为原点的数据社会学范式,创造性地提出数据进化论、数据资本论、数据博弈论,预示了未来文明的增长与秩序的重构。块数据是大数据时代的价值观和方法论。其中,《块数据2.0》英、日、韩文版的推出必将把这种价值观和方法论推向国际社会。块数据生于贵阳、长于贵阳并成于贵阳,但它不仅仅属于贵州和贵阳,更属于中国、属于世界。面向全球发行《块数据》多语种版本,不仅是向世界发出大数据时代的中国声音、也是向全球推广大数据发展的贵阳模式。数权法:破解大数据法律挑战的法理重器如果说块数据是大数据时代真正到来的标志,那么,数权法让贵州和贵阳真正站在世界面前。2019年,由大数据战略重点实验室研究撰写、社会科学文献出版社重磅出版的《数权法1.0:数权的理论基础》一书在2019数博会上首发,同时,英文版、中文繁体版也面向全球出版发行。该书是世界上首部《数权法》理论专著,它的出版为人类从工业文明迈向数字文明奠定了法理基础,并将成为打开数字文明未来之门的新钥匙。“数权法”一词是大数据战略重点实验室主任连玉明教授2017年3月首次提出后,全国科学技术名词审定委员会正式认定。同年7月,中国政法大学数权法研究中心正式成立,连玉明教授担任主任,这是中国首家数权法研究机构。连玉明教授研究指出,数权法是调整数据权属、数据权利、数据利用和数据保护的法律规范。《数权法1.0》基于“数据人”假设建构了“数权—数权制度—数权法”的理论架构,它开辟了全新的法学研究领域。大数据战略重点实验室还将陆续推出多语种版本的《数权法2.0:数权的制度设计》《数权法3.0:数权的立法前瞻》《数权法4.0:共享权与隐私权》《数权法5.0:数权观与新伦理》系列专著。《数权法》系列的翻译出版是中国法律崛起并正在走进世界舞台中央的重要标志,是数字文明时代参与全球治理的强大法理重器。主权区块链:互联网全球治理的解决方案主权区块链是从技术之治到制度之治的治理科技,是基于互联网秩序的共识、共享和共治所建构的智能化制度体系。主权区块链推动了互联网从低级向高级形态的演进,改变了互联网世界的游戏规则,为互联网全球治理提出了解决方案,必将成为人工智能时代的重要拐点。《块数据3.0》以“秩序互联网与主权区块”为题,重点研究了从技术之治到制度之治的治理科技。“主权区块链”一词已入选由全国科技名词审定委员会发布的《大数据十大新名词》并在2017数博会上首次发布,成为中国科技名词。大数据战略重点实验室将陆续研究推出《主权区块链》系列理论专著,从万物互联的秩序重构、金融科技颠覆历史、数字政府引领未来、协商民主改变世界到全球治理的中国智慧,为参与互联网全球治理贡献中国方案,为推动构建网络空间命运共同体贡献中国智慧。大数据蓝皮书:创造性构建“大数据发展指数”《中国大数据发展报告》是由大数据战略重点实验室研究推出、社会科学文献出版社连续出版的大数据发展年度报告,旨在为建设网络强国、数字中国、智慧社会提供解决方案。《大数据蓝皮书》至今已出版三部,作为每届“数博会”对外发布的重要理论创新成果,获得业界和社会的广泛关注,已成为国内外了解中国大数据发展形势的重要窗口。2017年,大数据战略重点实验室创造性构建了全国首个“大数据发展指数”,该指数聚焦政用、商用和民用三个评价维度,对31个省市自治区和重点城市大数据发展水平进行评估。大数据发展指数已经连续三年对外发布,这一指数已经成为各地区大数据发展的重要衡量标准。从指数评价结果看,2018年各地区大数据发展指数的平均值较上两年均有不同程度的提高。贵州和贵阳大数据发展总指数连续三年位列省域和城市前十,特别是政用指数,一直高居全国第一。贵州和贵阳以政用带动商用、民用实现了大数据从风生水起到落地生根的转变。大数据百科全书:抢占大数据国际话语权和规则制定权《大数据百科全书》是由大数据战略重点实验室编著、全国科学技术名词审定委员会审定的首部大数据主题工具书。从大数据理论、大数据战略、大数据技术、数字经济、数字金融、数据治理、数据安全、数权法、大数据史等9个方面建构理论框架和知识系统。在2017数博会上,大数据战略重点实验室战略咨询委员会、《大数据百科全书》编辑委员会揭牌,标志着我国首部《大数据百科全书》编纂工作全面启动。《大数据百科全书》的编纂及所构建的框架抢占了大数据国际话语权和规则制定权,是大数据发展水平的重要标志之一,也是大数据发展史上的重要里程碑。即将推出的《联合国工作语言大数据百科术语》和“大数据百科多语种展示平台”是《大数据百科全书》的重要标志性成果。DT时代:从“互联网+”到“大数据×”2015年,由大数据战略重点实验室研究编著、中信出版社出版的《DT时代:从“互联网+”到“大数据×”》一书创新性地提出“大数据融合创新”的理念。力图厘清从IT时代向DT时代大转型的一些关键性节点问题,总结各地发展大数据的成败得失,全景式展现大数据对当今社会产生的重大而深远的影响。《DT时代》全面阐述了人类从IT时代走向DT时代的基本特征和规律,认为大数据正成为人类的第二母语。DT不仅仅是技术的提升,而是思想的革命。《DT时代》首次提出块数据的数量(Volume)、速度(Velocity)、多样(Variety)、价值(Value)和数聚(Variable)的五V空间理论,将对大数据的认知推进到新的高度。本书认为块数据作为大数据的解决方案,实现了从数据到数聚、从解构到重构、从多维到共享的跨越,块数据社会、慢数据决策和流数据价值三位一体,标志着大数据时代的真正到来。。创新驱动力:首提“中国数谷”2015年,由大数据战略重点实验室研究编著、中信出版社出版的《创新驱动力:中国数谷的崛起》一书聚焦国家创新驱动发展战略,立足贵州和贵阳大数据发展形势,首次提出“中国数谷”的概念,为贵州、贵阳当前和今后一段时间大数据发展奠定了战略基础,注入了源头活力。本书系统回答了最前沿的大数据为什么生长在欠发达的贵阳、中关村的创新理论为什么在贵阳得以发扬等问题。本书认为,人类正在进入大数据时代。发展大数据,利用大数据创新、转型、创业是政府、企业,甚至个人的必然选择,也是当下最大的机遇所在。在新常态经济的要求下,在先进的数据理念的指导下,贵阳,抓住了这一时代机遇,站在了大数据发展的风口浪尖上,成为大数据实践的最前沿阵地,并创造出一系列重要成果。中国数谷:解码最前沿的大数据为什么出现在欠发达的贵阳以“中国数谷”研究为重要标志,揭示贵阳以大数据为内在创新驱动力实现创新、转型、成长的奥秘,探索一条有别于东部、不同于西部其他地区的发展新路。由大数战略重点实验室研究编著、机械工业出版社出版的《中国数谷》理论专著在2018数博会上首发。全方位、多层次地解读了最前沿的大数据为什么出现在欠发达的贵阳,贵阳如何亮出“中国数谷”新名片。“中国数谷”不仅成为中国大数据发展的战略策源地,而且成为引领全球大数据发展的重要风向标,它的意义已超越其现实利益和经济价值,而彰显出其独特的文化软实力和品牌竞争力,并逐步内化成为一种文化信仰和品牌力量,不断丰富城市文化的内涵,成为创新发展的不竭动力。大数据战略重点实验室将陆续推出《中国数谷》系列理论专著,从开放数据与数据安全、大数据地方立法的贵阳实践、数博大道的时代价值到治理科技的应用场景,进一步总结贵州和贵阳大数据发展的理论探索与创新实践。重新定义大数据:改变未来的十大驱动力全国科学技术名词审定委员会是经国务院授权,代表国家审定、公布科技名词的权威性机构。经全国名词委公布的名词具有权威性和约束力,全国各科研、教学、生产经营以及新闻出版等单位应遵照使用。2017年,全国名词委联合大数据战略重点实验室首次对外发布“大数据十大新名词”,这是全国名词委集中发布的首批大数据新名词。由大数战略重点实验室研究推出、机械工业出版社出版的《重新定义大数据:改变未来的十大驱动力》一书在2017数博会上首发。本书以“大数据十大新名词”为主线,对大数据发展面临的机遇与挑战进行前瞻性研判,提出“块数据”“主权区块链”“秩序互联网”“激活数据学”“5G社会”“开放数据”“数据交易”“数据铁笼”“数据安全”“数权法”等改变未来的十大驱动力和新趋势,在更深层次上揭示大数据的本质、规律和应用价值。本书是一本极具研判性的著作,它所定义的“新名词”,既具有大数据的时代特征,又代表大数据的发展趋势。论道数博:数博五年全记录数博会自2015年创办以来,已连续成功举办五届。作为全球首个大数据主题博览会,凭借国际化、专业化、市场化领先优势,数博会已成为国际性盛会、世界级平台。大数据战略重点实验室组织汇编、整理和发布了五届数博会智库服务成果,整理形成《论道数博(2015年8卷本)》《论道数博(2016年10卷本)》《论道数博(2017年13卷本)》《论道数博(2018年10卷本)》《论道数博(2019)》,记录传播思想精华,共享科技思想盛宴。并在《论道数博》基础上,精选重要嘉宾的演讲、讲话和观点,全面、系统、深入、客观的解析和记录数博会,由当代中国出版社出版《数据革命:2015贵阳国际大数据博览会暨全球大数据时代贵阳峰会全记录》《数聚力量:2016年中国大数据产业峰会暨中国电子商务创新发展峰会全记录》《数智未来:2017中国国际大数据产业博览会全记录》《数化万物:2018中国国际大数据产业博览会全记录》。《论道数博》系列汇聚了历届数博会的思想精华,获得了国内外业界的高度评价和认可,在全国乃至全球都产生了重要影响。
中国特色社会主义进入新时代,实现中华民族伟大复兴的中国梦开启新征程。党中央决定实施国家大数据战略,吹响了加快发展数字经济、建设数字中国的号角。习近平总书记在十九届中共中央政治局第二次集体学习时的重要讲话中指出:“大数据是信息化发展的新阶段”,并做出了“推动大数据技术产业创新发展、构建以数据为关键要素的数字经济、运用大数据提升国家治理现代化水平、运用大数据促进保障和改善民生、切实保障国家数据安全”的战略部署,为我国构筑大数据时代国家综合竞争新优势指明了方向!今天,我拟回顾大数据的发端、发展和现状,研判大数据的未来趋势,简述我国大数据发展的态势,并汇报我对信息化新阶段和数字经济的认识,以及对我国发展大数据的若干思考和建议。一、大数据的发端与发展从文明之初的“结绳记事”,到文字发明后的“文以载道”,再到近现代科学的“数据建模”,数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而,直到以电子计算机为代表的现代信息技术出现后,为数据处理提供了自动的方法和手段,人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在经济社会发展方方面面的应用(即信息化),推动数据(信息)成为继物质、能源之后的又一种重要战略资源。“大数据”作为一种概念和思潮由计算领域发端,之后逐渐延伸到科学和商业领域。大多数学者认为,“大数据”这一概念最早公开出现于1998年,美国高性能计算公司SGI的首席科学家约翰.马西(JohnMashey)在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题,并用“BigData(大数据)”来描述这一挑战,在计算领域引发思考。2007年,数据库领域的先驱人物吉姆.格雷(JimGray)指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来第四范式——“数据探索”,后来同行学者将其总结为“数据密集型科学发现”,开启了从科研视角审视大数据的热潮。2012年,牛津大学教授维克托.迈尔-舍恩伯格(ViktorMayer-Schnberger)在其畅销著作《大数据时代(BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink)》中指出,数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”、“近似求解”和“只看关联不问因果”的新模式,从而引发商业应用领域对大数据方法的广泛思考与探讨。大数据于2012、2013年达到其宣传高潮,2014年后概念体系逐渐成形,对其认知亦趋于理性。大数据相关技术、产品、应用和标准不断发展,逐渐形成了包括数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统,并持续发展和不断完善,其发展热点呈现了从技术向应用、再向治理的逐渐迁移。经过多年来的发展和沉淀,人们对大数据已经形成基本共识:大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化。大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。大数据的价值本质上体现为:提供了一种人类认识复杂系统的新思维和新手段。就理论上而言,在足够小的时间和空间尺度上,对现实世界数字化,可以构造一个现实世界的数字虚拟映像,这个映像承载了现实世界的运行规律。在拥有充足的计算能力和高效的数据分析方法的前提下,对这个数字虚拟映像的深度分析,将有可能理解和发现现实复杂系统的运行行为、状态和规律。应该说大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段,这也是大数据引发经济社会变革最根本性的原因。二、大数据的现状与趋势全球范围内,研究发展大数据技术、运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。下面将从应用、治理和技术三个方面对当前大数据的现状与趋势进行梳理。一是已有众多成功的大数据应用,但就其效果和深度而言,当前大数据应用尚处于初级阶段,根据大数据分析预测未来、指导实践的深层次应用将成为发展重点。按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。第一层,描述性分析应用,是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程。如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据,再以统计图表等可视化形式,将数据蕴含的信息推送给不同岗位的业务人员和管理者,帮助其更好地了解企业现状,进而做出判断和决策。第二层,预测性分析应用,是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员DavidRothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个,准确率达87.5%。第三层,指导性分析应用,是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化。如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。当前,在大数据应用的实践中,描述性、预测性分析应用多,决策指导性等更深层次分析应用偏少。一般而言,人们做出决策的流程通常包括:认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。例如:第一层次的描述性分析中,计算机仅负责将与现状相关的信息和知识展现给人类专家,而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深,计算机承担的任务越多、越复杂,效率提升也越大,价值也越大。然而,随着研究应用的不断深入,人们逐渐意识到前期在大数据分析应用中大放异彩的深度神经网络尚存在基础理论不完善、模型不具可解释性、鲁棒性较差等问题。因此,虽然应用层次最深的决策指导性应用,当前已在人机博弈等非关键性领域取得较好应用效果,但是,在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高,且与人类生命、财产、发展和安全紧密关联的领域,要真正获得有效应用,仍面临一系列待解决的重大基础理论和核心技术挑战。在此之前,人们还不敢、也不能放手将更多的任务交由计算机大数据分析系统来完成。这也意味着,虽然已有很多成功的大数据应用案例,但还远未达到我们的预期,大数据应用仍处于初级阶段。未来,随着应用领域的拓展、技术的提升、数据共享开放机制的完善,以及产业生态的成熟,具有更大潜在价值的预测性和指导性应用将是发展的重点。二是大数据治理体系远未形成,特别是隐私保护、数据安全与数据共享利用效率之间尚存在明显矛盾,成为制约大数据发展的重要短板,各界已经意识到构建大数据治理体系的重要意义,相关的研究与实践将持续加强。随着大数据作为战略资源的地位日益凸显,人们越来越强烈地意识到制约大数据发展最大的短板之一就是:数据治理体系远未形成,如数据资产地位的确立尚未达成共识,数据的确权、流通和管控面临多重挑战;数据壁垒广泛存在,阻碍了数据的共享和开放;法律法规发展滞后,导致大数据应用存在安全与隐私风险;等等。如此种种因素,制约了数据资源中所蕴含价值的挖掘与转化。其中,隐私、安全与共享利用之间的矛盾问题尤为凸显。一方面,数据共享开放的需求十分迫切。近年来人工智能应用取得的重要进展,主要源于对海量、高质量数据资源的分析和挖掘。而对于单一组织机构而言,往往靠自身的积累难以聚集足够的高质量数据。另外,大数据应用的威力,在很多情况下源于对多源数据的综合融合和深度分析,从而获得从不同角度观察、认知事物的全方位视图。而单个系统、组织的数据往往仅包含事物某个片面、局部的信息,因此,只有通过共享开放和数据跨域流通才能建立信息完整的数据集。然而,另一方面,数据的无序流通与共享,又可能导致隐私保护和数据安全方面的重大风险,必须对其加以规范和限制。例如,鉴于互联网公司频发的、由于对个人数据的不正当使用而导致的隐私安全问题,欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》(GeneralDataProtectionRegulation,GDPR),并于2018年5月25日正式生效。《条例》生效后,Facebook和谷歌等互联网企业即被指控强迫用户同意共享个人数据而面临巨额罚款,并被推上舆论的风口浪尖。2020年1月1日,被称为美国“最严厉、最全面的个人隐私保护法案”——《加利福利亚消费者隐私法案》(CCPA)将正式生效。CCPA规定了新的消费者权利,旨在加强消费者隐私权和数据安全保护,涉及企业收集的个人信息的访问、删除和共享,企业负有保护个人信息的责任,消费者控制并拥有其个人信息,这是美国目前最具典型意义的州隐私立法,提高了美国保护隐私的标准。在这种情况下,过去利用互联网平台中心化搜集用户数据,实现平台化的精准营销的这一典型互联网商业模式将面临重大挑战。我国在个人信息保护方面也开展了较长时间的工作,针对互联网环境下的个人信息保护,制定了《全国人民代表大会常务委员会关于加强网络信息保护的决定》《电信和互联网用户个人信息保护规定》《全国人民代表大会常务委员会关于维护互联网安全的决定》和《消费者权益保护法》等相关法律文件。特别是2016年11月7日,全国人大常委会通过的《中华人民共和国网络安全法》中明确了对个人信息收集、使用及保护的要求,并规定了个人对其个人信息进行更正或删除的权利。2019年,中央网信办发布了《数据安全管理办法(征求意见稿)》,向社会公开征求意见,明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范。相信这些法律法规将在促进数据的合规使用、保障个人隐私和数据安全等方面发挥不可或缺的重要作用。然而,从体系化、确保一致性、避免碎片化考虑,制订专门的数据安全法、个人信息保护法是必要的。另一方面,我们也应看到,这些法律法规也将在客观上不可避免地增加数据流通的成本、降低数据综合利用的效率。如何兼顾发展和安全,平衡效率和风险,在保障安全的前提下,不因噎废食,不对大数据价值的挖掘利用造成过分的负面影响,是当前全世界在数据治理中面临的共同课题。近年来,围绕大数据治理这一主题及其相关问题,国际上已有不少成功的实践和研究探索工作,诸如在国家层面推出的促进数据共享开放、保障数据安全和保护公民隐私的相关政策和法规,针对企业机构的数据管理能力评估和改善,面向数据质量保证的方法与技术,促进数据互操作的技术规范和标准等。然而,考察当前的研究和实践,仍存在三个方面的主要问题。一是大数据治理概念的使用相对“狭义”,研究和实践大都以企业组织为对象,仅从个体组织的角度考虑大数据治理的相关问题,这与大数据跨界流动的迫切需求存在矛盾,限制了大数据价值的发挥。二是现有研究实践对大数据治理内涵的理解尚未形成共识,不同研究者从流程设计、信息治理和数据管理应用等不同视角,给出了大数据治理的不同定义,共识的形成尚有待时日!三是大数据治理相关的研究实践多条线索并行,关联性、完整性和一致性不足。诸如,国家层面的政策法规和法律制定等较少被纳入大数据治理的视角;数据作为一种资产的地位仍未通过法律法规予以确立,难以进行有效的管理和应用;大数据管理已有不少可用技术与产品,但还缺乏完善的多层级管理体制和高效管理机制;如何有机结合技术与标准,建立良好的大数据共享与开放环境仍需要进一步探索。缺少系统化设计,仅仅在已有的相关体系上进行扩展和延伸,可能会导致数据治理的“碎片化”和一致性缺失等等。当前,各界已经普遍认识到了大数据治理的重要意义,大数据治理体系建设已经成为大数据发展重点,但仍处在发展的雏形阶段,推进大数据治理体系建设将是未来较长一段时间内需要持续努力的方向。三是数据规模高速增长,现有技术体系难以满足大数据应用的需求,大数据理论与技术远未成熟,未来信息技术体系将需要颠覆式创新和变革。近年来,数据规模呈几何级数高速成长。据国际信息技术咨询企业国际数据公司(IDC)的报告,2020年全球数据存储量将达到44ZB(1021),到2030年将达到2500ZB。当前,需要处理的数据量已经大大超过处理能力的上限,从而导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态,这些数据被称为“暗数据”。据国际商业机器公司(IBM)的研究报告估计,大多数企业仅对其所有数据的1%进行了分析应用。近年来,大数据获取、存储、管理、处理、分析等相关的技术已有显著进展,但是大数据技术体系尚不完善,大数据基础理论的研究仍处于萌芽期。首先,大数据定义虽已达成初步共识,但许多本质问题仍存在争议,例如:数据驱动与规则驱动的对立统一、“关联”与“因果”的辩证关系、“全数据”的时空相对性、分析模型的可解释性与鲁棒性等;其次,针对特定数据集和特定问题域已有不少专用解决方案,是否有可能形成“通用”或“领域通用”的统一技术体系,仍有待未来的技术发展给出答案;其三,应用超前于理论和技术发展,数据分析的结论往往缺乏坚实的理论基础,对这些结论的使用仍需保持谨慎态度。推演信息技术的未来发展趋势,较长时期内仍将保持渐进式发展态势,随技术发展带来的数据处理能力的提升将远远落后于按指数增长模式快速递增的数据体量,数据处理能力与数据资源规模之间的“剪刀差”将随时间持续扩大,大数据现象将长期存在。在此背景下,大数据现象倒逼技术变革,将使得信息技术体系进行一次重构,这也带来了颠覆式发展的机遇。例如,计算机体系结构以数据为中心的宏观走向和存算一体的微观走向,软件定义方法论的广泛采用,云边端融合的新型计算模式等;网络通信向宽带、移动、泛在发展,海量数据的快速传输和汇聚带来的网络的Pb/s级带宽需求,千亿级设备联网带来的Gb/s级高密度泛在移动接入需求;大数据的时空复杂度亟需在表示、组织、处理和分析等方面的基础性原理性突破,高性能、高时效、高吞吐等极端化需求呼唤基础器件的创新和变革;软硬件开源开放趋势导致产业发展生态的重构;等等。三、大数据与数字经济大数据是信息技术发展的必然产物,更是信息化进程的新阶段,其发展推动了数字经济的形成与繁荣。信息化已经历了两次高速发展的浪潮,始于上世纪80年代,随个人计算机大规模普及应用所带来的以单机应用为主要特征的数字化(信息化1.0),及始于上世纪90年代中期,随互联网大规模商用进程所推动的以联网应用为主要特征的网络化(信息化2.0)。当前,我们正在进入以数据的深度挖掘和融合应用为主要特征的智能化阶段(信息化3.0)。在“人机物”三元融合的大背景下,以“万物均需互联、一切皆可编程”为目标,数字化、网络化和智能化呈融合发展新态势。在信息化发展历程中,数字化、网络化和智能化是三条并行不悖的主线。数字化奠定基础,实现数据资源的获取和积累;网络化构建平台,促进数据资源的流通和汇聚;智能化展现能力,通过多源数据的融合分析呈现信息应用的类人智能,帮助人类更好地认知复杂事物和解决问题。信息化新阶段开启的另一个重要表征是信息技术开始从助力经济发展的辅助工具向引领经济发展的核心引擎转变,进而催生一种新的经济范式—“数字经济”。数字经济是指以数字化知识和信息为关键生产要素、以现代信息网络为重要载体、以信息通信技术的有效使用为效率提升和经济结构优化的重要推动力的一系列经济活动,是以新一代信息技术和产业为依托,继农业经济、工业经济之后的新经济形态。从构成上看,农业经济属单层结构,以农业为主,配合以其他行业,以人力、畜力和自然力为动力,使用手工工具,以家庭为单位自给自足,社会分工不明显,行业间相对独立;工业经济是两层结构,即提供能源动力和行业制造设备的装备制造产业,以及工业化后的各行各业,并形成分工合作的工业体系。数字经济则可分为三个层次:提供核心动能的信息技术及其装备产业、深度信息化的各行各业以及跨行业数据融合应用的数据增值产业。当前,数字经济正处于成型展开期,将进入信息技术引领经济发展的爆发期、黄金期!从另一个视角来看,如果说过去20多年,互联网高速发展引发了一场社会经济的“革命”,深刻地改变了人类社会,现在可以看到,互联网革命的上半场已经结束。上半场的主要特征是“2C”(面向最终用户),主战场是面向个人提供社交、购物、教育、娱乐等服务,可称为“消费互联网”。而互联网革命的下半场正在开启,其主要特征将是“2B”(面向组织机构),重点在于促进供给侧的深刻变革,互联网应用将面向各行业,特别是制造业,以优化资源配置、提质增效为目标,构建以工业物联为基础和工业大数据为要素的工业互联网。作为互联网发展的新领域,工业互联网是新一代信息技术与生产技术深度融合的产物,它通过人、机、物的深度互联,全要素、全产业链、全价值链的全面链接,推动形成新的工业生产制造和服务体系。当前,新一轮工业革命正在拉开帷幕,在全球范围内不断颠覆传统制造模式、生产组织方式和产业形态,而我国正处于由数量和规模扩张向质量和效益提升转变的关键期,需要抓住历史机遇期,促进新旧动能转换,形成竞争新优势。我国是制造大国和互联网大国,推动工业互联网创新发展具备丰富的应用场景、广阔的市场空间和巨大的推进动力。数字经济未来发展呈现如下趋势:一是以互联网为核心的新一代信息技术正逐步演化为人类社会经济活动的基础设施,并将对原有的物理基础设施完成深度信息化改造和软件定义,在其支撑下,人类极大地突破了沟通和协作的时空约束,推动平台经济、共享经济等新经济模式快速发展。以平台经济中的零售平台为例,百货大楼在前互联网时代对促进零售业发展起到了重要作用。而从上世纪九十年代中后期开始,伴随互联网的普及,电子商务平台逐渐兴起。与要求供需方必须在同一时空达成交易的百货大楼不同,电子商务平台依托互联网,将遍布全球各个角落的消费者、供货方连接在一起,并聚合物流、支付、信用管理等配套服务,突破了时空约束,大幅减少了中间环节,降低了交易成本,提高了交易效率。按阿里研究院的报告,过去十年间,中国电子商务规模增长了10倍,并呈加速发展趋势。二是各行业工业互联网的构建将促进各种业态围绕信息化主线深度协作、融合,在完成自身提升变革的同时,不断催生新的业态,并使一些传统业态走向消亡。如随着无人驾驶汽车技术的成熟和应用,传统出租车业态将可能面临消亡。其他很多重复性的、对创新创意要求不高的传统行业也将退出历史舞台。2017年10月,《纽约客》杂志报道了剑桥大学两名研究者对未来365种职业被信息技术淘汰的可能性分析,其中电话推销员、打字员、会计等职业高居榜首。三是在信息化理念和政务大数据的支撑下,政府的综合管理服务能力和政务服务的便捷性持续提升,公众积极参与社会治理,形成共策共商共治的良好生态。四是信息技术体系将完成蜕变升华式的重构,释放出远超当前的技术能力,从而使蕴含在大数据中的巨大价值得以充分释放,带来数字经济的爆发式增长。四、我国大数据发展的态势党的十八届五中全会将大数据上升为国家战略。回顾过去几年的发展,我国大数据发展可总结为:“进步长足,基础渐厚;喧嚣已逝,理性回归;成果丰硕,短板仍在;势头强劲,前景光明”。作为人口大国和制造大国,我国数据产生能力巨大,大数据资源极为丰富。随着数字中国建设的推进,各行业的数据资源采集、应用能力不断提升,将会导致更快更多的数据积累。预计到2020年,我国数据总量有望达到8000EB(1018),占全球数据总量的21%,将成为名列前茅的数据资源大国和全球数据中心。我国互联网大数据领域发展态势良好,市场化程度较高,一些互联网公司建成了具有国际领先水平的大数据存储与处理平台,并在移动支付、网络征信、电子商务等应用领域取得国际先进甚至领先的重要进展。然而,大数据与实体经济融合还远不够,行业大数据应用的广度和深度明显不足,生态系统亟待形成和发展。随着政务信息化的不断发展,各级政府积累了大量与公众生产生活息息相关的信息系统和数据,并成为最具价值数据的保有者。如何盘活这些数据,更好地支撑政府决策和便民服务,进而引领促进大数据事业发展,是事关全局的关键。2015年9月,国务院发布《促进大数据发展行动纲要》,其中重要任务之一就是“加快政府数据开放共享,推动资源整合,提升治理能力”,并明确了时间节点,2017年跨部门数据资源共享共用格局基本形成;2018年建成政府主导的数据共享开放平台,打通政府部门、企事业单位间的数据壁垒,并在部分领域开展应用试点;2020年实现政府数据集的普遍开放。随后,国务院和国务院办公厅又陆续印发了系列文件,推进政务信息资源共享管理、政务信息系统整合共享、互联网+政务服务试点、政务服务一网一门一次改革等,推进跨层级、跨地域、跨系统、跨部门、跨业务的政务信息系统整合、互联、协同和数据共享,用政务大数据支撑“放管服”改革落地,建设数字政府和智慧政府。目前,我国政务领域的数据开放共享已取得了重要进展和明显效果。例如:浙江省推出的“最多跑一次”改革,是推进供给侧结构性改革、落实“放管服”改革、优化营商环境的重要举措。以衢州市不动产交易为例,通过设立综合窗口再造业务流程,群众由原来跑国土、住建、税务3个窗口8次提交3套材料,变为只跑综合窗口1个窗口1次提交1套材料,效率大幅提高。据有关统计,截至2019年上半年,我国已有82个省级、副省级和地级政府上线了数据开放平台,涉及41.93%的省级行政区、66.67%的副省级城市和18.55%的地级城市。我国已经具备加快技术创新的良好基础。在科研投入方面,前期通过国家科技计划在大规模集群计算、服务器、处理器芯片、基础软件等方面系统性部署了研发任务,成绩斐然。“十三五”期间在国家重点研发计划中实施了“云计算和大数据”重点专项。当前科技创新2030大数据重大项目正在紧锣密鼓地筹划、部署中。我国在大数据内存计算、协处理芯片、分析方法等方面突破了一些关键技术,特别是打破“信息孤岛”的数据互操作技术和互联网大数据应用技术已处于国际领先水平;在大数据存储、处理方面,研发了一些重要产品,有效地支撑了大数据应用;国内互联网公司推出的大数据平台和服务,处理能力跻身世界前列。国家大数据战略实施以来,地方政府纷纷响应联动、积极谋划布局。国家发改委组织建设11个国家大数据工程实验室,为大数据领域相关技术创新提供支撑和服务。发改委、工信部、中央网信办联合批复贵州、上海、京津冀、珠三角等8个综合试验区,正在加快建设。各地方政府纷纷出台促进大数据发展的指导政策、发展方案、专项政策和规章制度等,使大数据发展呈蓬勃之势。然而,我们也必须清醒地认识到我国在大数据方面仍存在一系列亟待补上的短板。一是大数据治理体系尚待构建。首先,法律法规滞后。目前,我国尚无真正意义上的数据管理法规,只在少数相关法律条文中有涉及到数据管理、数据安全等规范的内容,难以满足快速增长的数据管理需求。其次,共享开放程度低。推动数据资源共享开放,将有利于打通不同部门和系统的壁垒,促进数据流转,形成覆盖全面的大数据资源,为大数据分析应用奠定基础。我国政府机构和公共部门已经掌握巨大的数据资源,但存在“不愿”、“不敢”和“不会”共享开放的问题。例如:在“最多跑一次”改革中,由于技术人员缺乏,政务业务流程优化不足,涉及部门多、链条长,长期以来多头管理、各自为政等问题,导致很多地区、乡镇的综合性窗口难建立、数据难流动、业务系统难协调。同时,由于办事流程不规范,网上办事大厅指南五花八门,以至于同一个县市办理同一项事件,需要的材料、需要集成的数据在各乡镇的政务审批系统里却各有不同,造成群众不能一次性获得准确的相关信息而需要“跑多次”。当前,我国的政务数据共享开放进程,相对于《行动纲要》明确的时间节点,已明显落后,且数据质量堪忧。不少地方的政务数据开放平台,仍然存在标准不统一、数据不完整、不好用甚至不可用等问题。政务数据共享开放意义重大,仍需要坚持不懈地持续推进。此外,在数据共享与开放的实施过程中,各地还存在片面强调数据物理集中的“一刀切”现象,对已有信息化建设投资保护不足,造成新的浪费。第三,安全隐患增多。近年来,数据安全和隐私数据泄露事件频发,凸显大数据发展面临的严峻挑战。在大数据环境下,数据在采集、存储、跨境跨系统流转、利用、交易和销毁等环节的全生命周期过程中,所有权与管理权分离,真假难辨,多系统、多环节的信息隐性留存,导致数据跨境跨系统流转追踪难、控制难,数据确权和可信销毁也更加困难。二是核心技术薄弱。基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题,大数据时代需避免此问题在新一轮发展中再次出现。近年来,我国在大数据应用领域取得较大进展,但是基础理论、核心器件和算法、软件等层面,较之美国等技术发达国家仍明显落后。在大数据管理、处理系统与工具方面,我国主要依赖国外开源社区的开源软件,然而,由于我国对国际开源社区的影响力较弱,导致对大数据技术生态缺乏自主可控能力,成为制约我国大数据产业发展和国际化运营的重大隐患。三是融合应用有待深化。我国大数据与实体经济融合不够深入,主要问题表现在:基础设施配置不到位,数据采集难度大;缺乏有效引导与支撑,实体经济数字化转型缓慢;缺乏自主可控的数据互联共享平台等。当前,工业互联网成为互联网发展的新领域,然而仍存在不少问题:政府热、企业冷,政府时有“项目式”、“运动式”推进,而企业由于没看到直接、快捷的好处,接受度低;设备设施的数字化率和联网率偏低;大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统,而众多中小企业数字化转型的动力和能力严重不足;国外厂商的设备在我国具有垄断地位,这些企业纷纷推出相应的工业互联网平台,抢占工业领域的大数据基础服务市场。五、若干思考和建议最后,我想基于自己在大数据领域的研究实践,汇报若干思考和建议。一家之见,仅供参考。(一)大力发展行业大数据应用当前,我国互联网领域的大数据应用市场化程度高、发展较好,但行业应用广度和深度明显不足,生态系统亟待形成和发展。事实上,与实体经济紧密结合的行业大数据应用蕴含了更加巨大的发展潜力和价值。以制造业为例,麦肯锡研究报告称:制造企业在利用大数据技术后,其生产成本能够降低10%—15%。而大数据技术对制造业的影响远非成本这一个方面。利用源于产品生命周期中市场、设计、制造、服务、再利用等各个环节数据,制造业企业可以更加精细、个性化地了解客户需求;建立更加精益化、柔性化、智能化的生产系统;创造包括销售产品、服务、价值等多样的商业模式;并实现从应激式到预防式的工业系统运转管理模式的转变。制造业是国民经济不可或缺的一环,也是一个国家竞争力背后的强大力量支撑。我国制造业位居世界第一,却大而不强。企业创新能力不足,高端和高价值产品欠缺,在国际产业分工中处于中低端,大力推动制造业大数据应用的发展,对产业升级转型至关重要。当前,我国不同行业领域正在积极推进数字化转型、网络化重构、智能化提升,推动行业大数据应用,也是推进数字中国建设的重要途径和基础。(二)建立系统全面的大数据治理体系大数据是数字经济的关键要素,强大的信息技术产业和全面深度信息化赋能的传统行业无疑是数字经济的基础!大数据治理须从营造大数据产业发展环境的视角予以全面、系统化考虑!我以为,在一国之范围内,大数据治理体系建设涉及国家、行业和组织三个层次,至少包含数据的资产地位确立、管理体制机制、共享与开放、安全与隐私保护等四方面内容,需要从制度法规、标准规范、应用实践和支撑技术等视角多管齐下,提供支撑。在国家层次,重点是要在法律法规层面明确数据的资产地位,奠定数据确权、流通、交易和保护的基础,制定促进数据共享开放的政策法规和标准规范,促进政务数据和行业数据的融合应用,并且出台数据安全与隐私保护的法律法规,保障国家、组织和个人的数据安全。在行业层次,重点是要在国家相关法律法规框架下,充分考虑本行业中企业的共同利益与长效发展,建立规范行业数据管理的组织机构和数据管控制度,制定行业内数据共享与开放的规则和技术规范,促进行业内数据的共享交换和融合应用。在组织层次,重点是要提升企业对数据全生命期的管理能力,促进企业内部和企业间的数据流通,提升数据变现能力,保障企业自身的数据安全及客户的数据安全和隐私信息。在数据治理体系建设中,数据共享开放是大数据资源建设的前提,在现阶段重要性尤其突出。在平衡数据共享开放和隐私保护、数据安全的关系时,我以为,还是需要强调应用先行、安全并重的原则。数据共享开放不应被孤立看待,可能需要综合考虑数据的使用场合及数据主体的权益。如,数据集中管理可能带来保管上的安全问题,然而数据融合才能产生价值,一定程度的集中是趋势所在,也更利于建立更强大可靠的保护机制;多源数据的融合可能导致信息泄露,然而在确知风险前,是否需要因其“可能性”而拒绝技术的应用?数据脱敏仍然可能存在隐私泄露的风险,是否允许个体在知情前提下“用隐私换方便”、“用隐私换治疗换健康”?是否允许使用符合当前“标准”、但无法确保未来一定不出现信息泄露的脱敏方法,并对相关应用予以免责?当然,加强兼顾隐私保护、数据安全和数据流动利用的新技术研发,也非常必要。当前,如安全多方计算、同态加密、联邦学习等技术研发,希望允许拥有数据的各方在不向其他组织或个人公开数据中所含敏感信息的情况下,实现数据的融合利用。虽然这些技术尚处于发展的初级阶段,但因其广阔的应用前景而受到普遍关注。另外,打破信息孤岛、盘活数据存量是当前一项紧迫的任务,而在此过程中,不宜过分强调物理集中,而应将逻辑互联作为打通信息“孤岛”的手段,逻辑互联先行,物理集中跟进。在数据共享体系建设中,需要在一定层级上构建物理分散、逻辑统一、管控可信、标准一致的政务信息资源共享交换体系,在不改变现有信息系统与数据资源的所有权及管理格局的前提下,明晰责权利,即:数据应用部门提需求、数据拥有部门做响应、交换平台管理部门保流转。同时,集约化的政务云建设正成为政府、企业建设新的信息系统的首选方案,如何在新一轮建设热潮中,从规划、立项审批、建设、审计等环节以及方案指导、标准规范和技术支持等方面给予全方位保障,尽可能避免新“孤岛”的产生,也是一项重大挑战。(三)以开源为基础构建自主可控的大数据产业生态在大数据时代,软件开源和硬件开放已成为不可逆的趋势,掌控开源生态,已成为国际产业竞争的焦点。建议采用“参与融入、蓄势引领”的开源推进策略,一方面鼓励我国企业积极“参与融入”国际成熟的开源社区,争取话语权;另一方面,也要在建设基于中文的开源社区方面加大投入,汇聚国内软硬件资源和开源人才,打造自主可控开源生态,在学习实践中逐渐成长壮大,伺机实现引领发展。中文开源社区的建设,需要国家在开源相关政策法规和开源基金会制度建立方面给予支持。此外,在开源背景下,对“自主可控”的内涵定义也有待更新,不一定强调硬件设计和软件代码的所有权,更多应体现在对硬件设计方案和软件代码的理解、掌握、改进及应用能力。(四)积极推动国际合作并筹划布局跨国数据共享机制2018年11月17日,习近平总书记在APEC工商领导人峰会上发表主旨演讲指出“经济全球化是人类社会发展必经之路”,“各国都是全球合作链条中的一环”。在数字经济快速发展的时代背景下,我国应该积极推动在大数据技术和应用方面的国际合作,建立跨国数据共享机制,与其他国家一起分享数字经济的红利,同时也使我国获得更多发展机遇和更大发展空间,积极促进数字经济下人类利益共同体和命运共同体的构建。当前,我国正在积极推动“一带一路”合作发展。各国在合作的各个领域都将产生大量的数据。建议积极推进跨国的大数据治理合作,在保障数据安全的前提下,促进数据跨境流动,从而形成围绕国家合作各个领域的大数据资源,为数字经济领域的国际合作奠定坚实的基础。“一带一路”沿线大都属发展中国家,无论技术还是经济水平较之发达国家都有明显差距。而数字经济这一新经济形态的成型发展将带给包括中国在内的各发展中国家经济转型发展的历史性机遇期。经济后发国家有机会在新经济的全球垄断性格局形成之前,与发达国家站在同一起跑线上,并且由于没有“路径依赖”所带来的历史包袱,也有可能在新一轮的竞争中占有优势。(五)未雨绸缪,防范大数据发展可能带来的新风险大数据发展可能导致一系列新的风险。例如,数据垄断可能导致数据“黑洞”现象。一些企业凭借先发展起来的行业优势,不断获取行业数据,但却“有收无放”,呈现出数据垄断的趋势。这种数据垄断不仅不利于行业的健康发展,而且有可能对国家安全带来冲击和影响。又如,数据和算法可能导致人们对其过分“依赖”及社会“被割裂”等伦理问题。大数据分析算法根据各种数据推测用户的偏好并推荐内容,在带来便利的同时,也导致人们只看到自己“希望看到的”信息,从而使人群被割裂为多个相互之间难以沟通、理解的群体,其可能引发的社会问题将是难以“亡羊补牢”的。需要看到,以互联网为代表的新一代信息技术所带来的这场社会经济“革命”,在广度、深度和速度上都将是空前的,也会是远远超出我们从工业社会获得的常识和认知、远远超出我们的预期的,适应信息社会的个体素质的养成、满足未来各种新兴业态就业需求的合格劳动者的培养,将是我们面临的巨大挑战!唯有全民提升对大数据的正确认知,具备用大数据思维认识和解决问题的基本素质和能力,才有可能积极防范大数据带来的新风险;唯有加快培养适应未来需求的合格人才,才有可能在数字经济时代形成国家的综合竞争力。我的汇报结束,谢谢大家!(主讲人系中国人民解放军军事科学院副院长)名词解释:API:应用编程接口(ApplicationProgrammingInterface)的首字母缩写,是指某软件系统或平台为其他应用软件系统提供的一组函数,通过调用这些函数,其他应用软件系统可以使用此软件系统或平台的部分功能或访问某些数据。开源平台:“开源”是开放源代码的简称,开源平台是指支持开源社区活动,管理开放源代码,向所有开源社区参与者提供相关服务的软件平台(平台基于互联网构建并通过互联网通过服务)。任何人都可以获得开源软件的源代码并加以修改,并在某个预先约定的开源协议限制范围内发布修改后的新版本。结合上下文,这里的开源平台是指提供大数据管理、处理、分析等方面能力的开源软件的软件平台。可伸缩的计算体系结构:可伸缩英文为scalable,指一个计算系统的能力和性能随应用负载的增加,通过极少的改动或配置甚至只是简单的硬件资源增加,而保持线性增长的能力,是表征计算系统处理能力的一个重要的设计指标。可伸缩的计算体系结构是计算系统体系结构设计追求的重要指标,软件定义、虚拟化、资源池化等方法和技术常用于可伸缩性的实现。鲁棒性:鲁棒是英文Robust的音译,也就是健壮的意思,因此鲁棒性也被翻译为健壮性。鲁棒性一般用于描述一个系统在异常或极端情况下仍然可以工作的能力。结合上下文,这里谈及的大数据分析模型的鲁棒性是指在数据存在错误、噪音、缺失,甚至在恶意数据攻击等异常情况下,模型仍然能得到较为准确结论的能力。数据互操作:数据互操作是指不同信息系统之间可以通过网络连接对彼此的数据进行访问,包括对其他系统数据的读取与写入。数据互操作是实现数据共享的基础。“全数据”:“全数据”也称“全量数据”,是与“采样数据”相对的概念。传统的数据分析受限于数据采集、存储、处理的成本,一般都仅对问题相关的所有数据进行局部采样,并基于采样获得的部分数据进行分析,得出结论,结论的准确性与采样方法以及对被采样数据的统计假设密切相关。而大数据时代,人们开始提出“全数据”的概念,即,并不采样,而是将与问题相关的所有数据全部输入到分析模型中分析。这种方法避免了因采样而可能带来的误差,但是也增加了计算成本。云边端融合:云是指云计算中心,边是指边缘计算设备,端是指终端设备。以智能家居为例,智能电视、冰箱、空调等直接与用户交互的设备是“端”,通过互联网连接的异地的云计算平台是“云”,而安装在每个家庭的智能家居中控服务器是“边”。云计算中心具有强大的计算存储能力,一般用于复杂的数据计算处理;终端设备距离最终用户较近,对用户的操作响应快,一般负责与用户进行交互;边缘计算设备介于“云”和“端”之间,负责对端所采集的数据做本地化处理,同时将需要更强大计算能力支持的任务和数据发往云计算中心处理,并将“云”返回的结果提供给端设备。云边端融合是一种“云”、“边”、“端”不同计算设备各司其职,密切协同且优势互补的新型计算模式。宽带、移动、泛在的网络通信:“宽带”是指通信速率高,海量大数据的高速传输需求推动骨干网络向Pb/s发展;“移动”是指移动通信;“泛在”是指无所不在。宽带、移动、泛在通信是指:未来大量移动终端和物联网设备通过无所不在的接入网络接入主干网并通过高速主干网络进行通信。安全多方计算:安全多方计算是为解决在保护隐私信息以及没有可信第三方的前提下,一组互不信任的参与方之间的协同计算问题而提出的理论框架。安全多方计算能够同时确保输入的隐私性和计算的正确性,在无可信第三方的前提下通过数学理论保证参与计算的各方成员输入信息不暴露,且同时能够获得准确的运算结果。此项技术的研究尚处于初级阶段。同态加密:同态加密是一种密码学技术,其核心在于保证:对经过同态加密的数据进行处理(如:运行某种数据分析算法)后得到输出,将这一输出进行解密,其结果与用同一方法(即上述数据分析算法)处理未加密的原始数据得到的输出结果一致。同态加密技术使得数据拥有者可以将数据加密后交给第三方处理,从第三方获得处理结果后,对此结果进行解密便可获得所期望的结果。如此一来,数据拥有者就不必担心因将原始数据交给第三方而存在的隐私泄露风险,同时又能获得第三方提供的数据分析服务。此项技术的研究尚处于初级阶段。联邦学习:联邦机器学习是一个多组织协同的机器学习框架,使得一个组织在不共享原始数据的情况下,可以利用其他组织数据中所蕴含的信息和知识,建立协同的机器学习模型。此模型比各组织仅利用本组织内部数据而训练的机器学习模型有更高的性能。此项技术的研究尚处于初级阶段。ZB、EB、Pb/s、Gb/s:在计算机领域,一个二进制位称为一个比特,一般用小写b表示;而8个二进制位称一个字节,用大写B表示。简言之:1B=8b。计算数据量或数据所需存储空间大小时,习惯用字节为单位(用B表示)。1KB=1024B,1MB=1024KB,1GB=1024MB(通常简记为109),1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB。1EB约等于10亿GB,而1ZB约等于1万亿GB。假设一首长为3分钟的歌曲录制成MP3文件(44K/320kbps音质),大小约为8MB,那么1ZB的数据存储空间可存储MP3格式歌曲140万亿多首,如果全部听一遍,需要8亿多年。计算网络传输速率时习惯上用比特每秒为单位(用b/s表示)。1Pb/S和1Gb/S分别代表1秒钟传输的数据是1P(1000万亿)个比特和1G(10亿)个比特。网络速率1Gb/S(此处是小写b)的情况下,下载一个2GB(此处是大写B)的电影,需要16秒;而网络速率1Pb/S的情况下,仅需要0.016毫秒。来源: 中国人大网
6月5-6日,“2019大数据与人工智能的数学理论和方法研讨会”在山东大学青岛校区召开。中国科学院院士、中国科学院数学与系统科学研究院研究员马志明,中国科学院院士、中国科学院数学与系统科学研究院研究员郭雷,中国科学院院士、山东大学教授彭实戈,中国科学院院士、南开大学教授张伟平,中国科学院院士、西安交通大学教授徐宗本,中国科学院数学与系统科学研究院、山东大学数学学科师生以及华为、微软公司等三十多位专家学者出席了会议。山东大学数学学院院长、数学与交叉科学研究中心副主任陈增敬教授主持会议。会上,与会专家分别作了专题报告。马志明院士作了题为“大数据分析的概率统计方法”的报告,他以AlphaGo为例介绍了深度学习与强化学习中的概率统计,从理论角度阐述了5G极化码理论的概率方法在Polar码中的应用,他表示,概率统计的思想和方法已渗透到当今时代的众多科技和社会领域,展现了概率统计学科的无穷魅力。郭雷院士作了“不确定性系统的学习与控制:数据与智能视角”报告,从自适应、学习与反馈、智能体的控制等方面对控制论领域的若干问题进行了细致深入的讲解,结合具体实例,阐明了在实际研究中将经典思想与现代方法相结合的重要性,并表示未来将进一步推进控制理论在交叉领域的深度融合。彭实戈院士以“不确定性数据分析的非线性期望方法”为题作金融数学方向的报告,从理论和实际应用两方面阐述了引入非线性期望理论体系处理经济领域问题的合理性以及先进性,他指出该理论在分析不确定性风险方面具有显著优势,这是金融数学领域的重大突破,将产生革命性变革。徐宗本院士围绕人工智能与数学之间的联系,详细介绍了“人工智能与数学:融通共进”的相关内容,他表示,人工智能势必会成为应用数学的重要方向之一,他提出了人工智能发展中存在的五大基础问题及核心挑战,并就AI在解决适配性、超参数、全局优化等方面取得的卓越成果展开详细论述。华为和微软研究院的专家分别作了题为“未来网络理论研究中的若干关键问题”、“信道编译码技术和展望”和“Optimizing Deep Neural Networks in G-space”的报告,分别就自己的研究领域阐述现状、凝练问题,提出了基础理论研究的新思路和新方法。他们着重强调了数学在其相关技术研究中的重要作用,并表达了与中国科学院、山东大学进行科研协作的意愿。山东大学李国君教授和石玉峰教授从实际应用出发,分别以“生物数据分析中的组合最优化方法”和“Applications of Big Data and Machine Learning in Quantitative Investment”为题,就生物信息及机器学习展开论述,通过引用丰富的案例,使与会学者充分感受到数学在实际应用中的作用,体现了数学在学科交叉融合中的重要性和关键性。中国科学院数学与系统科学研究院的高小山、戴彧虹、张波、闫桂英四位研究员分别在“数学机械化新进展”、“Training GANs with Centripetal Acceleration”、“在线学习算法”和“图神经网络介绍”四个研究方向作了全面阐述,针对其研究课题中存在的缺陷和空白,通过科研团队的不断探索和紧密协作,提出了新的优化算法,拓宽了应用领域。本次会议由山东大学数学与交叉科学研究中心、山东大学数学学院、山东大学数据科学研究院、中科院国家数学与交叉科学中心联合主办。会议为校研企三方对大数据与人工智能的深入探讨搭建了平台,推动了高校、科研院所研究成果和企业技术孵化的相互促进,加强了数学理论与实际应用的有机融合,加速了学界和业界科研合作互补的步伐。供稿 | 山东大学数学与交叉科学研究中心 作者 | 于宁 陈福康 杨媛 摄影 | 杨媛 资料 编辑 | 杨婷丹
《大数据时代》 维克托·迈尔-舍恩伯格关键词:相关关系 预测 全体数据在大数据时代,这几乎算是一本旧书,因为大家似乎都习惯了现在的数据观念,况且,作者最近已经出版了另一本关于数据的书。相比大数据来说,在科技互联网界,现在云计算、机器人、AI、无人驾驶更加流行。不可否认,此书在出版的时候,影响很大,可对我有启发的还是涂子沛先生的《大数据》,以致于当时跟朋友对于一个物品的命名,都要带“数据”两字,这种影响持续到现在,你看公众号的名字就知道了;大数据对我们的影响可能比我们想象的还要大,还要快,本文就针对书中提到的前面部分数据思维谈谈。对于认为“相关关系比因果关系更重要”这个观点,这本书出来之后,作为译者的周涛都反对了,我也是不赞成这个观点的;人类孜孜以求的真理,都是建立在因果关系的基础上,如果没有了因果关系,这个世界会变得更无秩序;我更加关注的是“理论的终结”这个例子,认为假设是自然理论或社会科学时代的方法,在数据时代,已经不需要了,也不需要用一系列的因果关系来验证各种猜想的传统研究范式已经不实用了,它完全被相关关系取代了;这个观点很极端,如果它有用,你只能把它放在某个条件之上才能用。就像爱因斯坦的提出的相对论,并不是完全否定了牛顿力学,而且在不同的程度上各行其道;记得在学校期间的一次课堂上,老师突然向全班同学提问:“理论,什么是理论?”。而作为喜欢抢答的我,是不会理会老师接下来要叫哪位同学起来回答,马上脱口而出:“理论是解释某一个事物的因果关系的逻辑体系。”老师马上走了过来,我以为他要对我,可是没有,他只是重复和解释了我的回答;从那时起,我就认为我对理论的理解是对的,而且是跟因果关系有很大联系的;但我对社会学科理论的习得,总感觉找不到门。从这本《大数据时代》读到这个理论的终结,还是有很大的不适应性的;未读本书之前,我也看过一个观点,认为人文社会科学在统计学未出现之前,是可以成为显学的,但是统计学之后,就不会存在了,因为统计能把所有的社会实验、调研、分析、抽样都完成了,社会学科提供不了什么理论视角,也不需要社会科学了,观点自会从统计中产生;舍尔伯格还用了卡尼曼的系统1系统2的例子来证明相关关系代替因果关系,认为小数据时代系统1的直觉思维是适用的,但不利于我们加深对这个世界的理解,大数据时代,必须用慢性思维,但是慢思维用来发现因果关系也是很困难的;是在追寻“是什么”,而非为什么的问题。按其推理,建立在相关关系分析法基础上的预测是大数据的核心,相关关系的核心是量化两个数据值之间的数理关系,只要找到一个关联物并监控它,就能预测它。在大数据的情况下,这个是能实现的。在小数据状态,数据只能通过抽样来估计全体,是达不到这种预测条件的;在日常工作中,我总出表现出对数据的重视,当某个同事问我,要不要统计这个数据,我的回答是要,我总有种直觉,数据是到用时方知少,如果回头再来收集,总不免要付出很多成本。也是我们经常会认为不能使用更多的数据,所以我们就不会去使用更多的数据,只要你心里有这种假设,就会跟大数据格格不入,因为数据量和存储的技术进步会降低这种数据收集难度;但数据量很大的时候,你不得不在数据成本和数据效益之间做出权衡,可能通过随机样本抽样分,这里说一个观点,样本选择的随机性比样本数量更重要,也就是在成本和效益之间,随机性的选择比样本更利于分析和代表性。在华与华彬的书中,介绍过这样的例子,说你要去调查超市里的客户购买习惯,不需要每个客户都去发问卷调查,或者访谈等各种方式,你只需要观察20个客户的购买过程就够了,这20个客户的购买每一个细节都要专门的分析原因,就基本掌握了这个超市的客户的购买习惯了;样本随机抽样,仅仅是在数据收集能力受限的情况下采用的方法,它终究不是大数据时代的方法,大数据时代的样本=总体,是采用所有的数据的方法,所有的数据就能从各个方面去观察和研究它,得到的结论自然比抽样更加可靠;对小数据而言,最重要的是精确,比如我前段时间分享过,我同事关于如何探讨做好数据准确的过程,必须要把准确的数据呈现给别人;而大数据允许不精确和混乱,因为这是一个概率的世界,精确的数据存在于小数据中,但小数据只会得到某个方面,大数据得到的是整体,是全貌;以前,我们总会拿同事的数据作为关键的分析来源,也是局限于数据存储量,所以,得不到多方面的分析,但是如果打通了多个部门的数据之后,我们会发现很多数据的关联性,这个不是从一个方面就能得出的结论,大数据能给你大的视野;最后一个观点,大数据的简单算法比小数据的复杂算法更有效,这个看法也是在前面的基础上推出的,看看亚马逊、今日头条这些利用算法的互联网公司,它比你更知道你想看什么书,它也比你更知道你喜欢看什么新闻内容。这些都是基于大量客户的行为推荐给你的,虽然具体的算法不清楚,但是大数据量让算法可为;
目前对于大数据已经出现了盲目崇拜,“一切皆可量化”是其核心口号和基本理论。但是在量化过程中,不可避免地会出现四种情况:剪裁现实生活、忽视社会情境、抹煞主体建构、取消生活意义。这种“原罪”并不能由于数据规模的无限增大而被消除。因此,大数据不能质疑,更不能取代各种非量化的人文社会研究。大数据只有对其“原罪”进行深刻反思,并且予以充分展示,才有资格在人文社会研究中保留一席之地。近年来,对于大数据已经出现了盲目崇拜,就是无质疑、不反思地跟风颂扬和无限拔高。本文不涉及任何自然科学领域中的大数据及其应用,仅讨论一个根本问题:大数据能够套用到对于人类的研究中吗?对这个问题,我国学术界虽然也出现了一些质疑,但是不仅寥若晨星,而且在学理上也主要是在可操作性的层次上争论,并没有击中要害。其实,大数据最值得质疑的,既不是其定义,[也不是其功能或意义, 还不是方法论层次上的“以相关分析取代因果分析”,而是“一切皆可量化”这个核心口号和基本理论。它表述了大数据的三层意思:其一,没有量化,就没有数据,更不可能有什么大数据;其二,物质世界当然是可以被量化的,但是如果仅限于此,那么所谓的大数据就仅仅是数量的增加,性质毫无改变,纯属炒作,例如天气预报一直就在分析海量的数据,却并没有以大数据自居,更没有形成崇拜;其三,现在的大数据之所以被崇拜,要害其实只有一点:把人类的行为及其结果,也给量化了,而且号称无所不包。这样一来,大数据的性质就变了,从自然科学侵入到人文社会研究,从科学蜕变为“唯科学主义”。这就不仅仅是一个研究工具的问题,而是一个认识论的根本问题。对此进行批评的人文社科著作汗牛充栋,本文不再一一列举,仅在操作的层次上分析一下,人类无限丰富的生活实践,在被“唯科学主义”改造成“数据”的过程中,究竟发生了什么。