这既是国家级,又是世界级的研究所:中国与联合国将在杭州建立大数据研究所!据新华社报道,这是联合国机构首次与相关国家合作建立大数据研究所;这一项目选址杭州,在于充分发挥中国相关地方政府和企业在大数据领域的先发和引领优势,重点聚焦新技术、新产业、新业态,更好服务于经济和社会发展。大数据是数据集合,以容量大、类型多、存取速度快、应用价值高为主要特征;大数据的集合过程,就是对来源分散、数量巨大、格式多样的数据进行采集、存储,并进行关联分析,从而发现新知识、创造新价值、提升新能力。大数据时代,正是从“人人互联”逐步延展至“人机交互”“物物相联”,发展空间无限广大。杭州的大数据领域,具有先发和引领优势,大数据研发的底层土壤比较深厚。跨行业、跨领域的大数据资源开发,唤醒了越来越多“沉睡”的数据,累积了层出不穷的新数据。一方面,大数据服务于企业,海量的数据已经成为企业最具价值的财富,发展“数字经济”已成共识,大数据技术的应用场景也越来越广泛。比如电商领头羊阿里巴巴,从市场营销到平台设计,从市场预测到决策支持,从效能提升到运营管理,从云计算到人工智能,大数据发挥着重要的支撑作用。另一方面,大数据开始蔓延到社会的各个领域,让城市越来越智慧,协助解决交通、消防、警务、医疗、城管等群众最关切的“难点”“痛点”。对于大数据的研究,是世界性的必需和必然。如何加强关键技术研发、强化数据治理?如何参与并促进全球数据创新?“数字革命”如何推进?核心技术生态圈如何构建?随着可获取的数字资源的大爆炸,用作分析大数据的技术工具该如何发展、跟上步伐?5G时代的到来,将会给大数据带来怎样的变革?还有,如何保障大数据的安全?等等等等,很多既宏观又具体的论题需要深入研究。不研究,无进步;不应用,无发展。大数据是真正的人类好资源、国家好土壤。大数据的研究和发展,要追求范式的进步。在创建一个数据库的过程中,必须依照一定的准则,这些准则即为范式,从第一范式到第二范式再到第三范式、第四范式……范式的迭代就是创新与进步。至于数据应用和数据共享,则需要更大的突破。比如医疗领域的数据量巨大,数据类型复杂,包括临床数据、影像数据、病历数据、检验检查数据、诊疗费用数据等等,如果合理利用好这些数据,来支持临床决策、帮助远程治疗病人、促进药品研发等等,那一定是人类的健康福音。如今,大数据的研究与发展过程中,最大的“瓶颈”问题其实是大数据人才短缺的问题。相关数据显示,大数据领域正面临全球性的“人才荒”:去年,美国的大数据人才和高级分析专家缺口高达19万,其企业界与大数据相关的管理人才则缺口150万;而我国目前大数据人才仅46万,未来3到5年内大数据人才的缺口将高达156万!赢得人才,就赢得先机。所以,为了更好地研究大数据、更快地发展大数据,最为迫切的就是更多更好地吸引和培养大数据人才。
中国特色社会主义进入新时代,实现中华民族伟大复兴的中国梦开启新征程。党中央决定实施国家大数据战略,吹响了加快发展数字经济、建设数字中国的号角。习近平总书记在十九届中共中央政治局第二次集体学习时的重要讲话中指出:“大数据是信息化发展的新阶段”,并做出了“推动大数据技术产业创新发展、构建以数据为关键要素的数字经济、运用大数据提升国家治理现代化水平、运用大数据促进保障和改善民生、切实保障国家数据安全”的战略部署,为我国构筑大数据时代国家综合竞争新优势指明了方向!今天,我拟回顾大数据的发端、发展和现状,研判大数据的未来趋势,简述我国大数据发展的态势,并汇报我对信息化新阶段和数字经济的认识,以及对我国发展大数据的若干思考和建议。一、大数据的发端与发展从文明之初的“结绳记事”,到文字发明后的“文以载道”,再到近现代科学的“数据建模”,数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而,直到以电子计算机为代表的现代信息技术出现后,为数据处理提供了自动的方法和手段,人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在经济社会发展方方面面的应用(即信息化),推动数据(信息)成为继物质、能源之后的又一种重要战略资源。“大数据”作为一种概念和思潮由计算领域发端,之后逐渐延伸到科学和商业领域。大多数学者认为,“大数据”这一概念最早公开出现于1998年,美国高性能计算公司SGI的首席科学家约翰.马西(JohnMashey)在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题,并用“BigData(大数据)”来描述这一挑战,在计算领域引发思考。2007年,数据库领域的先驱人物吉姆.格雷(JimGray)指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来第四范式——“数据探索”,后来同行学者将其总结为“数据密集型科学发现”,开启了从科研视角审视大数据的热潮。2012年,牛津大学教授维克托.迈尔-舍恩伯格(ViktorMayer-Schnberger)在其畅销著作《大数据时代(BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink)》中指出,数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”、“近似求解”和“只看关联不问因果”的新模式,从而引发商业应用领域对大数据方法的广泛思考与探讨。大数据于2012、2013年达到其宣传高潮,2014年后概念体系逐渐成形,对其认知亦趋于理性。大数据相关技术、产品、应用和标准不断发展,逐渐形成了包括数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统,并持续发展和不断完善,其发展热点呈现了从技术向应用、再向治理的逐渐迁移。经过多年来的发展和沉淀,人们对大数据已经形成基本共识:大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化。大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。大数据的价值本质上体现为:提供了一种人类认识复杂系统的新思维和新手段。就理论上而言,在足够小的时间和空间尺度上,对现实世界数字化,可以构造一个现实世界的数字虚拟映像,这个映像承载了现实世界的运行规律。在拥有充足的计算能力和高效的数据分析方法的前提下,对这个数字虚拟映像的深度分析,将有可能理解和发现现实复杂系统的运行行为、状态和规律。应该说大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段,这也是大数据引发经济社会变革最根本性的原因。二、大数据的现状与趋势全球范围内,研究发展大数据技术、运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。下面将从应用、治理和技术三个方面对当前大数据的现状与趋势进行梳理。一是已有众多成功的大数据应用,但就其效果和深度而言,当前大数据应用尚处于初级阶段,根据大数据分析预测未来、指导实践的深层次应用将成为发展重点。按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。第一层,描述性分析应用,是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程。如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据,再以统计图表等可视化形式,将数据蕴含的信息推送给不同岗位的业务人员和管理者,帮助其更好地了解企业现状,进而做出判断和决策。第二层,预测性分析应用,是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员DavidRothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个,准确率达87.5%。第三层,指导性分析应用,是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化。如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。当前,在大数据应用的实践中,描述性、预测性分析应用多,决策指导性等更深层次分析应用偏少。一般而言,人们做出决策的流程通常包括:认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。例如:第一层次的描述性分析中,计算机仅负责将与现状相关的信息和知识展现给人类专家,而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深,计算机承担的任务越多、越复杂,效率提升也越大,价值也越大。然而,随着研究应用的不断深入,人们逐渐意识到前期在大数据分析应用中大放异彩的深度神经网络尚存在基础理论不完善、模型不具可解释性、鲁棒性较差等问题。因此,虽然应用层次最深的决策指导性应用,当前已在人机博弈等非关键性领域取得较好应用效果,但是,在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高,且与人类生命、财产、发展和安全紧密关联的领域,要真正获得有效应用,仍面临一系列待解决的重大基础理论和核心技术挑战。在此之前,人们还不敢、也不能放手将更多的任务交由计算机大数据分析系统来完成。这也意味着,虽然已有很多成功的大数据应用案例,但还远未达到我们的预期,大数据应用仍处于初级阶段。未来,随着应用领域的拓展、技术的提升、数据共享开放机制的完善,以及产业生态的成熟,具有更大潜在价值的预测性和指导性应用将是发展的重点。二是大数据治理体系远未形成,特别是隐私保护、数据安全与数据共享利用效率之间尚存在明显矛盾,成为制约大数据发展的重要短板,各界已经意识到构建大数据治理体系的重要意义,相关的研究与实践将持续加强。随着大数据作为战略资源的地位日益凸显,人们越来越强烈地意识到制约大数据发展最大的短板之一就是:数据治理体系远未形成,如数据资产地位的确立尚未达成共识,数据的确权、流通和管控面临多重挑战;数据壁垒广泛存在,阻碍了数据的共享和开放;法律法规发展滞后,导致大数据应用存在安全与隐私风险;等等。如此种种因素,制约了数据资源中所蕴含价值的挖掘与转化。其中,隐私、安全与共享利用之间的矛盾问题尤为凸显。一方面,数据共享开放的需求十分迫切。近年来人工智能应用取得的重要进展,主要源于对海量、高质量数据资源的分析和挖掘。而对于单一组织机构而言,往往靠自身的积累难以聚集足够的高质量数据。另外,大数据应用的威力,在很多情况下源于对多源数据的综合融合和深度分析,从而获得从不同角度观察、认知事物的全方位视图。而单个系统、组织的数据往往仅包含事物某个片面、局部的信息,因此,只有通过共享开放和数据跨域流通才能建立信息完整的数据集。然而,另一方面,数据的无序流通与共享,又可能导致隐私保护和数据安全方面的重大风险,必须对其加以规范和限制。例如,鉴于互联网公司频发的、由于对个人数据的不正当使用而导致的隐私安全问题,欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》(GeneralDataProtectionRegulation,GDPR),并于2018年5月25日正式生效。《条例》生效后,Facebook和谷歌等互联网企业即被指控强迫用户同意共享个人数据而面临巨额罚款,并被推上舆论的风口浪尖。2020年1月1日,被称为美国“最严厉、最全面的个人隐私保护法案”——《加利福利亚消费者隐私法案》(CCPA)将正式生效。CCPA规定了新的消费者权利,旨在加强消费者隐私权和数据安全保护,涉及企业收集的个人信息的访问、删除和共享,企业负有保护个人信息的责任,消费者控制并拥有其个人信息,这是美国目前最具典型意义的州隐私立法,提高了美国保护隐私的标准。在这种情况下,过去利用互联网平台中心化搜集用户数据,实现平台化的精准营销的这一典型互联网商业模式将面临重大挑战。我国在个人信息保护方面也开展了较长时间的工作,针对互联网环境下的个人信息保护,制定了《全国人民代表大会常务委员会关于加强网络信息保护的决定》《电信和互联网用户个人信息保护规定》《全国人民代表大会常务委员会关于维护互联网安全的决定》和《消费者权益保护法》等相关法律文件。特别是2016年11月7日,全国人大常委会通过的《中华人民共和国网络安全法》中明确了对个人信息收集、使用及保护的要求,并规定了个人对其个人信息进行更正或删除的权利。2019年,中央网信办发布了《数据安全管理办法(征求意见稿)》,向社会公开征求意见,明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范。相信这些法律法规将在促进数据的合规使用、保障个人隐私和数据安全等方面发挥不可或缺的重要作用。然而,从体系化、确保一致性、避免碎片化考虑,制订专门的数据安全法、个人信息保护法是必要的。另一方面,我们也应看到,这些法律法规也将在客观上不可避免地增加数据流通的成本、降低数据综合利用的效率。如何兼顾发展和安全,平衡效率和风险,在保障安全的前提下,不因噎废食,不对大数据价值的挖掘利用造成过分的负面影响,是当前全世界在数据治理中面临的共同课题。近年来,围绕大数据治理这一主题及其相关问题,国际上已有不少成功的实践和研究探索工作,诸如在国家层面推出的促进数据共享开放、保障数据安全和保护公民隐私的相关政策和法规,针对企业机构的数据管理能力评估和改善,面向数据质量保证的方法与技术,促进数据互操作的技术规范和标准等。然而,考察当前的研究和实践,仍存在三个方面的主要问题。一是大数据治理概念的使用相对“狭义”,研究和实践大都以企业组织为对象,仅从个体组织的角度考虑大数据治理的相关问题,这与大数据跨界流动的迫切需求存在矛盾,限制了大数据价值的发挥。二是现有研究实践对大数据治理内涵的理解尚未形成共识,不同研究者从流程设计、信息治理和数据管理应用等不同视角,给出了大数据治理的不同定义,共识的形成尚有待时日!三是大数据治理相关的研究实践多条线索并行,关联性、完整性和一致性不足。诸如,国家层面的政策法规和法律制定等较少被纳入大数据治理的视角;数据作为一种资产的地位仍未通过法律法规予以确立,难以进行有效的管理和应用;大数据管理已有不少可用技术与产品,但还缺乏完善的多层级管理体制和高效管理机制;如何有机结合技术与标准,建立良好的大数据共享与开放环境仍需要进一步探索。缺少系统化设计,仅仅在已有的相关体系上进行扩展和延伸,可能会导致数据治理的“碎片化”和一致性缺失等等。当前,各界已经普遍认识到了大数据治理的重要意义,大数据治理体系建设已经成为大数据发展重点,但仍处在发展的雏形阶段,推进大数据治理体系建设将是未来较长一段时间内需要持续努力的方向。三是数据规模高速增长,现有技术体系难以满足大数据应用的需求,大数据理论与技术远未成熟,未来信息技术体系将需要颠覆式创新和变革。近年来,数据规模呈几何级数高速成长。据国际信息技术咨询企业国际数据公司(IDC)的报告,2020年全球数据存储量将达到44ZB(1021),到2030年将达到2500ZB。当前,需要处理的数据量已经大大超过处理能力的上限,从而导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态,这些数据被称为“暗数据”。据国际商业机器公司(IBM)的研究报告估计,大多数企业仅对其所有数据的1%进行了分析应用。近年来,大数据获取、存储、管理、处理、分析等相关的技术已有显著进展,但是大数据技术体系尚不完善,大数据基础理论的研究仍处于萌芽期。首先,大数据定义虽已达成初步共识,但许多本质问题仍存在争议,例如:数据驱动与规则驱动的对立统一、“关联”与“因果”的辩证关系、“全数据”的时空相对性、分析模型的可解释性与鲁棒性等;其次,针对特定数据集和特定问题域已有不少专用解决方案,是否有可能形成“通用”或“领域通用”的统一技术体系,仍有待未来的技术发展给出答案;其三,应用超前于理论和技术发展,数据分析的结论往往缺乏坚实的理论基础,对这些结论的使用仍需保持谨慎态度。推演信息技术的未来发展趋势,较长时期内仍将保持渐进式发展态势,随技术发展带来的数据处理能力的提升将远远落后于按指数增长模式快速递增的数据体量,数据处理能力与数据资源规模之间的“剪刀差”将随时间持续扩大,大数据现象将长期存在。在此背景下,大数据现象倒逼技术变革,将使得信息技术体系进行一次重构,这也带来了颠覆式发展的机遇。例如,计算机体系结构以数据为中心的宏观走向和存算一体的微观走向,软件定义方法论的广泛采用,云边端融合的新型计算模式等;网络通信向宽带、移动、泛在发展,海量数据的快速传输和汇聚带来的网络的Pb/s级带宽需求,千亿级设备联网带来的Gb/s级高密度泛在移动接入需求;大数据的时空复杂度亟需在表示、组织、处理和分析等方面的基础性原理性突破,高性能、高时效、高吞吐等极端化需求呼唤基础器件的创新和变革;软硬件开源开放趋势导致产业发展生态的重构;等等。三、大数据与数字经济大数据是信息技术发展的必然产物,更是信息化进程的新阶段,其发展推动了数字经济的形成与繁荣。信息化已经历了两次高速发展的浪潮,始于上世纪80年代,随个人计算机大规模普及应用所带来的以单机应用为主要特征的数字化(信息化1.0),及始于上世纪90年代中期,随互联网大规模商用进程所推动的以联网应用为主要特征的网络化(信息化2.0)。当前,我们正在进入以数据的深度挖掘和融合应用为主要特征的智能化阶段(信息化3.0)。在“人机物”三元融合的大背景下,以“万物均需互联、一切皆可编程”为目标,数字化、网络化和智能化呈融合发展新态势。在信息化发展历程中,数字化、网络化和智能化是三条并行不悖的主线。数字化奠定基础,实现数据资源的获取和积累;网络化构建平台,促进数据资源的流通和汇聚;智能化展现能力,通过多源数据的融合分析呈现信息应用的类人智能,帮助人类更好地认知复杂事物和解决问题。信息化新阶段开启的另一个重要表征是信息技术开始从助力经济发展的辅助工具向引领经济发展的核心引擎转变,进而催生一种新的经济范式—“数字经济”。数字经济是指以数字化知识和信息为关键生产要素、以现代信息网络为重要载体、以信息通信技术的有效使用为效率提升和经济结构优化的重要推动力的一系列经济活动,是以新一代信息技术和产业为依托,继农业经济、工业经济之后的新经济形态。从构成上看,农业经济属单层结构,以农业为主,配合以其他行业,以人力、畜力和自然力为动力,使用手工工具,以家庭为单位自给自足,社会分工不明显,行业间相对独立;工业经济是两层结构,即提供能源动力和行业制造设备的装备制造产业,以及工业化后的各行各业,并形成分工合作的工业体系。数字经济则可分为三个层次:提供核心动能的信息技术及其装备产业、深度信息化的各行各业以及跨行业数据融合应用的数据增值产业。当前,数字经济正处于成型展开期,将进入信息技术引领经济发展的爆发期、黄金期!从另一个视角来看,如果说过去20多年,互联网高速发展引发了一场社会经济的“革命”,深刻地改变了人类社会,现在可以看到,互联网革命的上半场已经结束。上半场的主要特征是“2C”(面向最终用户),主战场是面向个人提供社交、购物、教育、娱乐等服务,可称为“消费互联网”。而互联网革命的下半场正在开启,其主要特征将是“2B”(面向组织机构),重点在于促进供给侧的深刻变革,互联网应用将面向各行业,特别是制造业,以优化资源配置、提质增效为目标,构建以工业物联为基础和工业大数据为要素的工业互联网。作为互联网发展的新领域,工业互联网是新一代信息技术与生产技术深度融合的产物,它通过人、机、物的深度互联,全要素、全产业链、全价值链的全面链接,推动形成新的工业生产制造和服务体系。当前,新一轮工业革命正在拉开帷幕,在全球范围内不断颠覆传统制造模式、生产组织方式和产业形态,而我国正处于由数量和规模扩张向质量和效益提升转变的关键期,需要抓住历史机遇期,促进新旧动能转换,形成竞争新优势。我国是制造大国和互联网大国,推动工业互联网创新发展具备丰富的应用场景、广阔的市场空间和巨大的推进动力。数字经济未来发展呈现如下趋势:一是以互联网为核心的新一代信息技术正逐步演化为人类社会经济活动的基础设施,并将对原有的物理基础设施完成深度信息化改造和软件定义,在其支撑下,人类极大地突破了沟通和协作的时空约束,推动平台经济、共享经济等新经济模式快速发展。以平台经济中的零售平台为例,百货大楼在前互联网时代对促进零售业发展起到了重要作用。而从上世纪九十年代中后期开始,伴随互联网的普及,电子商务平台逐渐兴起。与要求供需方必须在同一时空达成交易的百货大楼不同,电子商务平台依托互联网,将遍布全球各个角落的消费者、供货方连接在一起,并聚合物流、支付、信用管理等配套服务,突破了时空约束,大幅减少了中间环节,降低了交易成本,提高了交易效率。按阿里研究院的报告,过去十年间,中国电子商务规模增长了10倍,并呈加速发展趋势。二是各行业工业互联网的构建将促进各种业态围绕信息化主线深度协作、融合,在完成自身提升变革的同时,不断催生新的业态,并使一些传统业态走向消亡。如随着无人驾驶汽车技术的成熟和应用,传统出租车业态将可能面临消亡。其他很多重复性的、对创新创意要求不高的传统行业也将退出历史舞台。2017年10月,《纽约客》杂志报道了剑桥大学两名研究者对未来365种职业被信息技术淘汰的可能性分析,其中电话推销员、打字员、会计等职业高居榜首。三是在信息化理念和政务大数据的支撑下,政府的综合管理服务能力和政务服务的便捷性持续提升,公众积极参与社会治理,形成共策共商共治的良好生态。四是信息技术体系将完成蜕变升华式的重构,释放出远超当前的技术能力,从而使蕴含在大数据中的巨大价值得以充分释放,带来数字经济的爆发式增长。四、我国大数据发展的态势党的十八届五中全会将大数据上升为国家战略。回顾过去几年的发展,我国大数据发展可总结为:“进步长足,基础渐厚;喧嚣已逝,理性回归;成果丰硕,短板仍在;势头强劲,前景光明”。作为人口大国和制造大国,我国数据产生能力巨大,大数据资源极为丰富。随着数字中国建设的推进,各行业的数据资源采集、应用能力不断提升,将会导致更快更多的数据积累。预计到2020年,我国数据总量有望达到8000EB(1018),占全球数据总量的21%,将成为名列前茅的数据资源大国和全球数据中心。我国互联网大数据领域发展态势良好,市场化程度较高,一些互联网公司建成了具有国际领先水平的大数据存储与处理平台,并在移动支付、网络征信、电子商务等应用领域取得国际先进甚至领先的重要进展。然而,大数据与实体经济融合还远不够,行业大数据应用的广度和深度明显不足,生态系统亟待形成和发展。随着政务信息化的不断发展,各级政府积累了大量与公众生产生活息息相关的信息系统和数据,并成为最具价值数据的保有者。如何盘活这些数据,更好地支撑政府决策和便民服务,进而引领促进大数据事业发展,是事关全局的关键。2015年9月,国务院发布《促进大数据发展行动纲要》,其中重要任务之一就是“加快政府数据开放共享,推动资源整合,提升治理能力”,并明确了时间节点,2017年跨部门数据资源共享共用格局基本形成;2018年建成政府主导的数据共享开放平台,打通政府部门、企事业单位间的数据壁垒,并在部分领域开展应用试点;2020年实现政府数据集的普遍开放。随后,国务院和国务院办公厅又陆续印发了系列文件,推进政务信息资源共享管理、政务信息系统整合共享、互联网+政务服务试点、政务服务一网一门一次改革等,推进跨层级、跨地域、跨系统、跨部门、跨业务的政务信息系统整合、互联、协同和数据共享,用政务大数据支撑“放管服”改革落地,建设数字政府和智慧政府。目前,我国政务领域的数据开放共享已取得了重要进展和明显效果。例如:浙江省推出的“最多跑一次”改革,是推进供给侧结构性改革、落实“放管服”改革、优化营商环境的重要举措。以衢州市不动产交易为例,通过设立综合窗口再造业务流程,群众由原来跑国土、住建、税务3个窗口8次提交3套材料,变为只跑综合窗口1个窗口1次提交1套材料,效率大幅提高。据有关统计,截至2019年上半年,我国已有82个省级、副省级和地级政府上线了数据开放平台,涉及41.93%的省级行政区、66.67%的副省级城市和18.55%的地级城市。我国已经具备加快技术创新的良好基础。在科研投入方面,前期通过国家科技计划在大规模集群计算、服务器、处理器芯片、基础软件等方面系统性部署了研发任务,成绩斐然。“十三五”期间在国家重点研发计划中实施了“云计算和大数据”重点专项。当前科技创新2030大数据重大项目正在紧锣密鼓地筹划、部署中。我国在大数据内存计算、协处理芯片、分析方法等方面突破了一些关键技术,特别是打破“信息孤岛”的数据互操作技术和互联网大数据应用技术已处于国际领先水平;在大数据存储、处理方面,研发了一些重要产品,有效地支撑了大数据应用;国内互联网公司推出的大数据平台和服务,处理能力跻身世界前列。国家大数据战略实施以来,地方政府纷纷响应联动、积极谋划布局。国家发改委组织建设11个国家大数据工程实验室,为大数据领域相关技术创新提供支撑和服务。发改委、工信部、中央网信办联合批复贵州、上海、京津冀、珠三角等8个综合试验区,正在加快建设。各地方政府纷纷出台促进大数据发展的指导政策、发展方案、专项政策和规章制度等,使大数据发展呈蓬勃之势。然而,我们也必须清醒地认识到我国在大数据方面仍存在一系列亟待补上的短板。一是大数据治理体系尚待构建。首先,法律法规滞后。目前,我国尚无真正意义上的数据管理法规,只在少数相关法律条文中有涉及到数据管理、数据安全等规范的内容,难以满足快速增长的数据管理需求。其次,共享开放程度低。推动数据资源共享开放,将有利于打通不同部门和系统的壁垒,促进数据流转,形成覆盖全面的大数据资源,为大数据分析应用奠定基础。我国政府机构和公共部门已经掌握巨大的数据资源,但存在“不愿”、“不敢”和“不会”共享开放的问题。例如:在“最多跑一次”改革中,由于技术人员缺乏,政务业务流程优化不足,涉及部门多、链条长,长期以来多头管理、各自为政等问题,导致很多地区、乡镇的综合性窗口难建立、数据难流动、业务系统难协调。同时,由于办事流程不规范,网上办事大厅指南五花八门,以至于同一个县市办理同一项事件,需要的材料、需要集成的数据在各乡镇的政务审批系统里却各有不同,造成群众不能一次性获得准确的相关信息而需要“跑多次”。当前,我国的政务数据共享开放进程,相对于《行动纲要》明确的时间节点,已明显落后,且数据质量堪忧。不少地方的政务数据开放平台,仍然存在标准不统一、数据不完整、不好用甚至不可用等问题。政务数据共享开放意义重大,仍需要坚持不懈地持续推进。此外,在数据共享与开放的实施过程中,各地还存在片面强调数据物理集中的“一刀切”现象,对已有信息化建设投资保护不足,造成新的浪费。第三,安全隐患增多。近年来,数据安全和隐私数据泄露事件频发,凸显大数据发展面临的严峻挑战。在大数据环境下,数据在采集、存储、跨境跨系统流转、利用、交易和销毁等环节的全生命周期过程中,所有权与管理权分离,真假难辨,多系统、多环节的信息隐性留存,导致数据跨境跨系统流转追踪难、控制难,数据确权和可信销毁也更加困难。二是核心技术薄弱。基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题,大数据时代需避免此问题在新一轮发展中再次出现。近年来,我国在大数据应用领域取得较大进展,但是基础理论、核心器件和算法、软件等层面,较之美国等技术发达国家仍明显落后。在大数据管理、处理系统与工具方面,我国主要依赖国外开源社区的开源软件,然而,由于我国对国际开源社区的影响力较弱,导致对大数据技术生态缺乏自主可控能力,成为制约我国大数据产业发展和国际化运营的重大隐患。三是融合应用有待深化。我国大数据与实体经济融合不够深入,主要问题表现在:基础设施配置不到位,数据采集难度大;缺乏有效引导与支撑,实体经济数字化转型缓慢;缺乏自主可控的数据互联共享平台等。当前,工业互联网成为互联网发展的新领域,然而仍存在不少问题:政府热、企业冷,政府时有“项目式”、“运动式”推进,而企业由于没看到直接、快捷的好处,接受度低;设备设施的数字化率和联网率偏低;大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统,而众多中小企业数字化转型的动力和能力严重不足;国外厂商的设备在我国具有垄断地位,这些企业纷纷推出相应的工业互联网平台,抢占工业领域的大数据基础服务市场。五、若干思考和建议最后,我想基于自己在大数据领域的研究实践,汇报若干思考和建议。一家之见,仅供参考。(一)大力发展行业大数据应用当前,我国互联网领域的大数据应用市场化程度高、发展较好,但行业应用广度和深度明显不足,生态系统亟待形成和发展。事实上,与实体经济紧密结合的行业大数据应用蕴含了更加巨大的发展潜力和价值。以制造业为例,麦肯锡研究报告称:制造企业在利用大数据技术后,其生产成本能够降低10%—15%。而大数据技术对制造业的影响远非成本这一个方面。利用源于产品生命周期中市场、设计、制造、服务、再利用等各个环节数据,制造业企业可以更加精细、个性化地了解客户需求;建立更加精益化、柔性化、智能化的生产系统;创造包括销售产品、服务、价值等多样的商业模式;并实现从应激式到预防式的工业系统运转管理模式的转变。制造业是国民经济不可或缺的一环,也是一个国家竞争力背后的强大力量支撑。我国制造业位居世界第一,却大而不强。企业创新能力不足,高端和高价值产品欠缺,在国际产业分工中处于中低端,大力推动制造业大数据应用的发展,对产业升级转型至关重要。当前,我国不同行业领域正在积极推进数字化转型、网络化重构、智能化提升,推动行业大数据应用,也是推进数字中国建设的重要途径和基础。(二)建立系统全面的大数据治理体系大数据是数字经济的关键要素,强大的信息技术产业和全面深度信息化赋能的传统行业无疑是数字经济的基础!大数据治理须从营造大数据产业发展环境的视角予以全面、系统化考虑!我以为,在一国之范围内,大数据治理体系建设涉及国家、行业和组织三个层次,至少包含数据的资产地位确立、管理体制机制、共享与开放、安全与隐私保护等四方面内容,需要从制度法规、标准规范、应用实践和支撑技术等视角多管齐下,提供支撑。在国家层次,重点是要在法律法规层面明确数据的资产地位,奠定数据确权、流通、交易和保护的基础,制定促进数据共享开放的政策法规和标准规范,促进政务数据和行业数据的融合应用,并且出台数据安全与隐私保护的法律法规,保障国家、组织和个人的数据安全。在行业层次,重点是要在国家相关法律法规框架下,充分考虑本行业中企业的共同利益与长效发展,建立规范行业数据管理的组织机构和数据管控制度,制定行业内数据共享与开放的规则和技术规范,促进行业内数据的共享交换和融合应用。在组织层次,重点是要提升企业对数据全生命期的管理能力,促进企业内部和企业间的数据流通,提升数据变现能力,保障企业自身的数据安全及客户的数据安全和隐私信息。在数据治理体系建设中,数据共享开放是大数据资源建设的前提,在现阶段重要性尤其突出。在平衡数据共享开放和隐私保护、数据安全的关系时,我以为,还是需要强调应用先行、安全并重的原则。数据共享开放不应被孤立看待,可能需要综合考虑数据的使用场合及数据主体的权益。如,数据集中管理可能带来保管上的安全问题,然而数据融合才能产生价值,一定程度的集中是趋势所在,也更利于建立更强大可靠的保护机制;多源数据的融合可能导致信息泄露,然而在确知风险前,是否需要因其“可能性”而拒绝技术的应用?数据脱敏仍然可能存在隐私泄露的风险,是否允许个体在知情前提下“用隐私换方便”、“用隐私换治疗换健康”?是否允许使用符合当前“标准”、但无法确保未来一定不出现信息泄露的脱敏方法,并对相关应用予以免责?当然,加强兼顾隐私保护、数据安全和数据流动利用的新技术研发,也非常必要。当前,如安全多方计算、同态加密、联邦学习等技术研发,希望允许拥有数据的各方在不向其他组织或个人公开数据中所含敏感信息的情况下,实现数据的融合利用。虽然这些技术尚处于发展的初级阶段,但因其广阔的应用前景而受到普遍关注。另外,打破信息孤岛、盘活数据存量是当前一项紧迫的任务,而在此过程中,不宜过分强调物理集中,而应将逻辑互联作为打通信息“孤岛”的手段,逻辑互联先行,物理集中跟进。在数据共享体系建设中,需要在一定层级上构建物理分散、逻辑统一、管控可信、标准一致的政务信息资源共享交换体系,在不改变现有信息系统与数据资源的所有权及管理格局的前提下,明晰责权利,即:数据应用部门提需求、数据拥有部门做响应、交换平台管理部门保流转。同时,集约化的政务云建设正成为政府、企业建设新的信息系统的首选方案,如何在新一轮建设热潮中,从规划、立项审批、建设、审计等环节以及方案指导、标准规范和技术支持等方面给予全方位保障,尽可能避免新“孤岛”的产生,也是一项重大挑战。(三)以开源为基础构建自主可控的大数据产业生态在大数据时代,软件开源和硬件开放已成为不可逆的趋势,掌控开源生态,已成为国际产业竞争的焦点。建议采用“参与融入、蓄势引领”的开源推进策略,一方面鼓励我国企业积极“参与融入”国际成熟的开源社区,争取话语权;另一方面,也要在建设基于中文的开源社区方面加大投入,汇聚国内软硬件资源和开源人才,打造自主可控开源生态,在学习实践中逐渐成长壮大,伺机实现引领发展。中文开源社区的建设,需要国家在开源相关政策法规和开源基金会制度建立方面给予支持。此外,在开源背景下,对“自主可控”的内涵定义也有待更新,不一定强调硬件设计和软件代码的所有权,更多应体现在对硬件设计方案和软件代码的理解、掌握、改进及应用能力。(四)积极推动国际合作并筹划布局跨国数据共享机制2018年11月17日,习近平总书记在APEC工商领导人峰会上发表主旨演讲指出“经济全球化是人类社会发展必经之路”,“各国都是全球合作链条中的一环”。在数字经济快速发展的时代背景下,我国应该积极推动在大数据技术和应用方面的国际合作,建立跨国数据共享机制,与其他国家一起分享数字经济的红利,同时也使我国获得更多发展机遇和更大发展空间,积极促进数字经济下人类利益共同体和命运共同体的构建。当前,我国正在积极推动“一带一路”合作发展。各国在合作的各个领域都将产生大量的数据。建议积极推进跨国的大数据治理合作,在保障数据安全的前提下,促进数据跨境流动,从而形成围绕国家合作各个领域的大数据资源,为数字经济领域的国际合作奠定坚实的基础。“一带一路”沿线大都属发展中国家,无论技术还是经济水平较之发达国家都有明显差距。而数字经济这一新经济形态的成型发展将带给包括中国在内的各发展中国家经济转型发展的历史性机遇期。经济后发国家有机会在新经济的全球垄断性格局形成之前,与发达国家站在同一起跑线上,并且由于没有“路径依赖”所带来的历史包袱,也有可能在新一轮的竞争中占有优势。(五)未雨绸缪,防范大数据发展可能带来的新风险大数据发展可能导致一系列新的风险。例如,数据垄断可能导致数据“黑洞”现象。一些企业凭借先发展起来的行业优势,不断获取行业数据,但却“有收无放”,呈现出数据垄断的趋势。这种数据垄断不仅不利于行业的健康发展,而且有可能对国家安全带来冲击和影响。又如,数据和算法可能导致人们对其过分“依赖”及社会“被割裂”等伦理问题。大数据分析算法根据各种数据推测用户的偏好并推荐内容,在带来便利的同时,也导致人们只看到自己“希望看到的”信息,从而使人群被割裂为多个相互之间难以沟通、理解的群体,其可能引发的社会问题将是难以“亡羊补牢”的。需要看到,以互联网为代表的新一代信息技术所带来的这场社会经济“革命”,在广度、深度和速度上都将是空前的,也会是远远超出我们从工业社会获得的常识和认知、远远超出我们的预期的,适应信息社会的个体素质的养成、满足未来各种新兴业态就业需求的合格劳动者的培养,将是我们面临的巨大挑战!唯有全民提升对大数据的正确认知,具备用大数据思维认识和解决问题的基本素质和能力,才有可能积极防范大数据带来的新风险;唯有加快培养适应未来需求的合格人才,才有可能在数字经济时代形成国家的综合竞争力。我的汇报结束,谢谢大家!(主讲人系中国人民解放军军事科学院副院长)名词解释:API:应用编程接口(ApplicationProgrammingInterface)的首字母缩写,是指某软件系统或平台为其他应用软件系统提供的一组函数,通过调用这些函数,其他应用软件系统可以使用此软件系统或平台的部分功能或访问某些数据。开源平台:“开源”是开放源代码的简称,开源平台是指支持开源社区活动,管理开放源代码,向所有开源社区参与者提供相关服务的软件平台(平台基于互联网构建并通过互联网通过服务)。任何人都可以获得开源软件的源代码并加以修改,并在某个预先约定的开源协议限制范围内发布修改后的新版本。结合上下文,这里的开源平台是指提供大数据管理、处理、分析等方面能力的开源软件的软件平台。可伸缩的计算体系结构:可伸缩英文为scalable,指一个计算系统的能力和性能随应用负载的增加,通过极少的改动或配置甚至只是简单的硬件资源增加,而保持线性增长的能力,是表征计算系统处理能力的一个重要的设计指标。可伸缩的计算体系结构是计算系统体系结构设计追求的重要指标,软件定义、虚拟化、资源池化等方法和技术常用于可伸缩性的实现。鲁棒性:鲁棒是英文Robust的音译,也就是健壮的意思,因此鲁棒性也被翻译为健壮性。鲁棒性一般用于描述一个系统在异常或极端情况下仍然可以工作的能力。结合上下文,这里谈及的大数据分析模型的鲁棒性是指在数据存在错误、噪音、缺失,甚至在恶意数据攻击等异常情况下,模型仍然能得到较为准确结论的能力。数据互操作:数据互操作是指不同信息系统之间可以通过网络连接对彼此的数据进行访问,包括对其他系统数据的读取与写入。数据互操作是实现数据共享的基础。“全数据”:“全数据”也称“全量数据”,是与“采样数据”相对的概念。传统的数据分析受限于数据采集、存储、处理的成本,一般都仅对问题相关的所有数据进行局部采样,并基于采样获得的部分数据进行分析,得出结论,结论的准确性与采样方法以及对被采样数据的统计假设密切相关。而大数据时代,人们开始提出“全数据”的概念,即,并不采样,而是将与问题相关的所有数据全部输入到分析模型中分析。这种方法避免了因采样而可能带来的误差,但是也增加了计算成本。云边端融合:云是指云计算中心,边是指边缘计算设备,端是指终端设备。以智能家居为例,智能电视、冰箱、空调等直接与用户交互的设备是“端”,通过互联网连接的异地的云计算平台是“云”,而安装在每个家庭的智能家居中控服务器是“边”。云计算中心具有强大的计算存储能力,一般用于复杂的数据计算处理;终端设备距离最终用户较近,对用户的操作响应快,一般负责与用户进行交互;边缘计算设备介于“云”和“端”之间,负责对端所采集的数据做本地化处理,同时将需要更强大计算能力支持的任务和数据发往云计算中心处理,并将“云”返回的结果提供给端设备。云边端融合是一种“云”、“边”、“端”不同计算设备各司其职,密切协同且优势互补的新型计算模式。宽带、移动、泛在的网络通信:“宽带”是指通信速率高,海量大数据的高速传输需求推动骨干网络向Pb/s发展;“移动”是指移动通信;“泛在”是指无所不在。宽带、移动、泛在通信是指:未来大量移动终端和物联网设备通过无所不在的接入网络接入主干网并通过高速主干网络进行通信。安全多方计算:安全多方计算是为解决在保护隐私信息以及没有可信第三方的前提下,一组互不信任的参与方之间的协同计算问题而提出的理论框架。安全多方计算能够同时确保输入的隐私性和计算的正确性,在无可信第三方的前提下通过数学理论保证参与计算的各方成员输入信息不暴露,且同时能够获得准确的运算结果。此项技术的研究尚处于初级阶段。同态加密:同态加密是一种密码学技术,其核心在于保证:对经过同态加密的数据进行处理(如:运行某种数据分析算法)后得到输出,将这一输出进行解密,其结果与用同一方法(即上述数据分析算法)处理未加密的原始数据得到的输出结果一致。同态加密技术使得数据拥有者可以将数据加密后交给第三方处理,从第三方获得处理结果后,对此结果进行解密便可获得所期望的结果。如此一来,数据拥有者就不必担心因将原始数据交给第三方而存在的隐私泄露风险,同时又能获得第三方提供的数据分析服务。此项技术的研究尚处于初级阶段。联邦学习:联邦机器学习是一个多组织协同的机器学习框架,使得一个组织在不共享原始数据的情况下,可以利用其他组织数据中所蕴含的信息和知识,建立协同的机器学习模型。此模型比各组织仅利用本组织内部数据而训练的机器学习模型有更高的性能。此项技术的研究尚处于初级阶段。ZB、EB、Pb/s、Gb/s:在计算机领域,一个二进制位称为一个比特,一般用小写b表示;而8个二进制位称一个字节,用大写B表示。简言之:1B=8b。计算数据量或数据所需存储空间大小时,习惯用字节为单位(用B表示)。1KB=1024B,1MB=1024KB,1GB=1024MB(通常简记为109),1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB。1EB约等于10亿GB,而1ZB约等于1万亿GB。假设一首长为3分钟的歌曲录制成MP3文件(44K/320kbps音质),大小约为8MB,那么1ZB的数据存储空间可存储MP3格式歌曲140万亿多首,如果全部听一遍,需要8亿多年。计算网络传输速率时习惯上用比特每秒为单位(用b/s表示)。1Pb/S和1Gb/S分别代表1秒钟传输的数据是1P(1000万亿)个比特和1G(10亿)个比特。网络速率1Gb/S(此处是小写b)的情况下,下载一个2GB(此处是大写B)的电影,需要16秒;而网络速率1Pb/S的情况下,仅需要0.016毫秒。来源: 中国人大网
走进经济生活里的一切导读:2016年2月,教育部公布新增“数据科学与大数据技术”专业,北京大学、对外经济贸易大学、中南大学成为首批获批高校。次年,又有32所高校获批。此次248所高校获批“数据科学与大数据技术”专业,几乎是前两次获批高校的8倍。来源丨21世纪经济报道(ID:jjbd21)记者丨王峰 北京报道图片来源/ 图虫创意(资料图)“没有什么行业是没有数据的”“我认为没有什么行业是没有数据的。”清华-伯克利深圳学院数据科学与信息技术专业一年级硕士生王宇杰说。 他在去年9月从一名工科本科生跨学科进入了大数据专业。大数据专业正成为时下火热的高校新增专业。在4月28日举行的教育部新闻发布会上,教育部高等教育司副司长范海林介绍,2017年全国高校备案专业中,新增数据科学与大数据技术专业点250个,同比增加了近7倍。从中国人民大学、北京师范大学、厦门大学等知名大学,到一些地方院校均投入了这股热潮。王宇杰大二时在一次展会上不经意接触到了一款大数据可视化软件Tableau,由此对大数据产生了浓厚的兴趣。通过Tableau,王宇杰感受到,数据分析这个行业的潜力无可限量。随着移动互联网大数据时代的到来,数据量正在不断增长。未来,更多人将学会分析数据,并将数据的洞察运用到工作和生活中的方方面面。数据分析会从小众走向主流,人人都可以成为数据分析师。接下来的大学时间里,他参加了一些数据科学家训练营,和一些商业机构组织的训练营,还在慕课网站上自修了国外大学的大数据课程。他在2016年的Tableau可视化分析争霸赛北京赛区比赛中拿到了第一名。Tableau可视化分析争霸赛是全球可视化数据分析人士的年度饕餮盛宴,每年都会成千上万数据狂人参加这一比拼。这其中,既有来自各行各业的数据分析专家,也有像王宇杰这样的数据爱好者,而王宇杰是获奖选手中唯一一名大学生。通过这些活动,王宇杰结识了这个一不断壮大的数据分析社区,也让他对这个行业更加充满热情。大四时,王宇杰得到了保研的机会,“国内开设大数据方向研究生专业的大学并不多,主要有清华大学、北京大学、复旦大学、北京航空航天大学等,这是当时比较知名的几个高校。”王宇杰说。王宇杰得到了北大和清华的offer,权衡之后,他选择了清华-伯克利深圳学院,这是清华和伯克利合办的硕士研究生项目,不仅可以在清华拿到数据科学学位,还有机会到美国加州大学伯克利分校去进行为期9个月的学习,同时拿到相关学位。“我是清华-伯克利深圳学院招收的第二届硕士生,也就是说,大数据专业其实是一个非常崭新的学科,在我申请的那一年,相对来说,大家对这个概念还不是特别了解,当然已经有一定数量的申请者,远超我们实际录取的人数,但并不是那么的火爆。”王宇杰说。“到了我下面那届,就是招收第三届硕士生的时候,竞争就变得异常激烈,在短短一年时间里,这个专业成为了大家认可的非常有潜力的专业,大批的工程本科生,或者是数学、经济方面的学生开始申请我们这个方向,因此录取率直线下降。个人感觉在近几年内,竞争会变得越来越激烈。”他说。清华-伯克利深圳学院的数据科学与信息技术研究中心设有6个实验室,分别为传感器与微系统实验室、纳米器件实验室、物联网与社会物理信息系统实验室、未来互联网研究实验室、大数据实验室、智能成像实验室。“我想一般人会认为我们专业课的名称会比较高大上,像大数据分析、大数据基础等,的确会有这些,但从本质上来说,我认为我们学的课程跟数学、工程学这些基础学科没有太大区别,当然加入了一些新兴科技的课程,比如现在很火的深度学习、人工智能。”他告诉记者。王宇杰进入了智能成像实验室,学习和科研课题是关于计算机视觉。“用一句话来概括,我们要做的是赋予计算机人的视觉能力。怎么理解呢?以后是一个有大量机器人存在的世界,而机器人要跟人类进行交互,做一些基本的工作,必须要有视觉能力,看得懂周围的环境,所以我们做的事情就是通过技术的方法让计算机拥有人的这种视觉能力。”他说。热门专业:数据科学与大数据技术图片来源 / 新华社(资料图)3月21日,教育部公布了2017年度普通高等学校本科专业备案和审批结果。在新增备案本科专业中,“数据科学与大数据技术”最为热门。根据统计,共有250所高校新增“数据科学与大数据技术”专业,其中包括中国人民大学、北京师范大学、厦门大学等19所教育部直属高校。河南省21所高校新增该专业,为最多的省份。河北、山东、安徽、广东、江苏等省也有较多高校成功获批。2016年2月,教育部公布新增“数据科学与大数据技术”专业,北京大学、对外经济贸易大学、中南大学成为首批获批高校。次年,又有32所高校获批。此次248所高校获批“数据科学与大数据技术”专业,几乎是前两次获批高校的8倍。该专业备受高校青睐与国家大力支持大数据产业发展及该产业人才奇缺相关。国务院2015年8月曾印发《关于印发促进大数据发展行动纲要的通知》,明确鼓励高校设立数据科学和数据工程相关专业,重点培养专业化数据工程师等大数据专业人才。根据教育部上述2017年度高校本科专业备案和审批结果,此次共有60所高校获批“机器人工程”专业。“机器人工程”专业大热的背后,是人工智能行业的持续发展。3月6日,南京大学官网正式发布新闻,经研究决定,南京大学正式成立人工智能学院。今年政府工作报告中四次提及“智能”,并特别指出要“加强新一代人工智能研发应用”、“发展智能产业”。值得注意的是,从清华大学到地方高校,大数据专业成为普遍的时尚。“清华或者其他一般院校,在这个领域里对科研的贡献会有差异,但事实上,在如今的大环境之下,大家都想跟上时代潮流,所以我认为无论处于怎样的研究水平,敢于去跟上这个时代,就是挺好的一件事情。”王宇杰说。“大数据是一个概念,它包含的范围非常广,不同的专业方向,对外显示的名称可能都是大数据分析、大数据工程与技术,但是整个产业其实非常庞大,从前到后拥有一个很大的产业链。”他说。“我认为数据分析师这个称谓已经太过宽泛了,我觉得这个行业需要细分,未来会有专门做算法的工程师,专门做硬件实现的工程师,以及专门做理论推导的科研人员等。”他说。(编辑 戴春晨)
在“金融大数据应用与信息安全研讨会”上,中国支付清算协会金融大数据应用研究组组长、中国信通院云计算与大数据研究所所长何宝宏博士正式发布了由双方联合撰写完成的《大数据在金融领域的典型应用研究》白皮书,并在现场演讲中阐释了金融大数据的四大应用价值、四大发展特点和五大发展趋势。白皮书聚焦大数据技术在金融领域的应用,从金融大数据的发展、金融大数据的应用场景分析、金融大数据的典型案例分析、金融大数据应用面临的挑战和促进金融大数据发展应用的相关建议等方面,深入剖析大数据技术在金融领域的应用情况:一是,从金融大数据发展现状出发,明确金融大数据的来源、应用特点和应用趋势;二是,通过应用场景分析,深入浅出地阐述金融大数据如何帮助银行业、证券业、保险业、支付清算行业和互联网金融行业提升资源配置效率,强化风险管控能力,促进业务创新发展;三是,对评选出的“金融大数据创新应用优秀案例”进行深入分析,为读者呈现这些案例机构应用大数据技术的初衷和目的,所开发的项目和取得的成果,以及通过应用大数据技术得到的好处;最后,对金融大数据的应用挑战进行分析,并提出了促进金融大数据发展应用的建议。铁粉必看
随着大数据分析市场迅速扩大,包括主流客户,哪些技术是最需要的,哪些技术具有较大的增长潜力? 答案可以在《TechRada:大数据,2016年第一季度》报告中初见端倪,一份新的Forrester研究报告评估了22项技术在整个数据生命周期中的成熟度和轨迹。这些热门大数据技术都是关于实时、预测和集成洞察相关的技术,这正是客户现在想要的大数据技术。根据Forrester的分析,以下是我对十大最热门的大数据技术的一些分析:1. 预测分析:软件和/或硬件解决方案,允许公司通过分析大数据源来发现、评估、优化和部署预测模型,从而提高业务绩效或降低风险。2. NoSQL数据库:键值、文档和图形数据库。3. 搜索和知识发现:支持从驻留在多个源(如文件系统、数据库、流、api和其他平台和应用程序)中的大型非结构化和结构化数据存储库中自助提取信息和新见解的工具和技术。4. 流分析:可以过滤、聚合、丰富和分析来自多个不同的活动数据源和任何数据格式的高吞吐量数据的软件。5. 内存数据结构:通过在分布式计算机系统的动态随机访问内存(DRAM)、闪存或SSD上分布数据,提供低延迟访问和处理大量数据。6. 分布式文件存储:一种计算机网络,为了冗余和性能,数据通常以复制的方式存储在多个节点上。7. 数据虚拟化:一种从各种数据源(包括Hadoop等大数据源和分布式数据存储)实时、近实时地传递信息的技术。8. 数据集成:用于跨解决方案进行数据编排的工具,如Amazon Elastic MapRece (EMR)、Apache Hive、Apache Pig、Apache Spark、MapRece、Couchbase、Hadoop和MongoDB。9. 数据准备:软件可以减轻采购、成形、清理和共享各种杂乱的数据集的负担,从而加速数据在分析方面的有用性。10. 数据质量:使用分布式数据存储和数据库上的并行操作,对大型高速数据集进行数据清理和充实的产品。Forrester的TechRadar方法评估了每一项技术的潜在成功,而上述10项技术都预计将获得“重大成功”。此外,每种技术都根据其技术生态系统的发展水平处于特定的成熟阶段(从创建到衰落)。前8项技术被认为处于成长期,后2项技术被认为处于生存期。Forrester还估计,这项技术进入下一个阶段所需的时间,而预测分析是唯一一个拥有“>10年”称号的预测分析,预计将“在增长后期通过均衡阶段在很长一段时间内提供高业务价值”。“上述第2至第8项技术预计将在3至5年内进入下一个阶段,最后2项技术预计将在1至3年内从生存阶段进入增长阶段。最后,Forrester为每种技术提供了对其商业增值的评估,并根据不确定性进行了调整。这不仅基于潜在的影响,还基于来自实施和市场声誉的反馈和证据。Forrester说:“如果这项技术和它的生态系统处于发展的早期阶段,我们不得不假设它的潜在破坏和破坏要比一项更知名的技术更大。上述列表中的前两项技术被评为“高”业务增值技术,后两项被评为“中等”技术,其余都被评为“低”技术,这无疑是因为它们的新兴地位和不够成熟。为什么我要将两个仍处于生存阶段的数据准备和数据质量技术添加到最热门的技术列表中呢?在同一份报告中,Forrester还提供了2015年第四季度63家大数据供应商的调查数据:客户对下列每个功能的兴趣程度如何?(%回答“非常高”)1. 数据准备和发现52%2. 数据集成48%3. 高级分析46%4. 客户分析46%5. 数据安全38%6. 内存中计算37%而Forrester预测,几个独立的供应商数据准备将生存,它认为这是“一个重要的功能实现民主化的数据,“或者说,数据分析,让科学家们花更多的时间在建模和发现见解和允许更多的业务用户和数据挖掘有乐趣。除了确保决策基于可靠和准确的数据之外,数据质量还包括上表中的数据安全性。弗雷斯特预计,随着公司将数据认证过程正式化,数据质量将在未来几年取得重大成功。数据认证工作力求确保数据符合预期的质量标准;安全;以及支持业务决策、业务绩效和业务流程的法规遵从性。”“大数据”作为一个话题,已经成为主流受众的话题,这可能比之前任何一个技术流行语都要流行得多。这并没有帮助讨论这个无定形的术语,它被大众定义为“地球的神经系统”(参见我的咆哮),或者被技术观众定义为“Hadoop”。Forrester的报告帮助澄清了这个术语,将大数据定义为由22种技术组成的生态系统,每种技术都有其对企业和消费者的具体好处。大数据,特别是它的一个属性,大容量,最近引发了一个新的一般性的讨论话题,人工智能。大数据集的可用性是深度学习(AI的一个子集)受到关注的原因之一,从识别互联网猫到击败围棋冠军。反过来,人工智能可能会导致收集和分析数据的新工具的出现。弗雷斯特说:“除了更多的数据和更多的计算能力,我们现在已经扩展了分析技术,如深度学习和上下文语义服务,这使得人工智能成为解决更广泛的业务问题的理想工具。因此,Forrester发现有许多新公司在提供工具和服务,试图用模仿人类智能某些方面的机器来支持应用程序和流程。”预测是困难的,尤其是关于未来的预测,但它是一个(相对)安全的赌注,在模仿人类智能元素的竞赛中,由谷歌、Facebook、百度、亚马逊、IBM和微软领导的,都有非常雄厚的财力,将在不久的将来改变我们所说的“大数据”。那么,这些公司在购买哪些大数据技术呢?云计算,AWS非关系型分析系统是大数据技术投资的热门领域,认知软件也是如此。值得关注的15大数据技术提供大数据解决方案的技术供应商似乎数不胜数。目前特别流行的许多大数据解决方案都可以归为以下15类:1. Hadoop生态系统虽然Apache Hadoop可能不再像以前那样占据主导地位,但是如果不提到这个用于分布式处理大型数据集的开放源码框架,就几乎不可能谈论大数据。去年,Forrester预测,“在未来两年内,100%的大型企业将采用it (Hadoop和相关技术,如Spark)进行大数据分析。”多年来,Hadoop已经发展成为一个包含相关软件的完整生态系统,许多商业大数据解决方案都是基于Hadoop的。事实上,锡安市场研究公司(Zion Market Research)预测,到2022年,基于hadoop的产品和服务的市场将继续以50%的复合年增长率增长,届时其价值将达到871.4亿美元,高于2016年的76.9亿美元。关键的Hadoop供应商包括Cloudera、Hortonworks和MapR,以及领先的公共云都提供支持这项技术的服务。2. SPARKApache Spark是Hadoop生态系统的一部分,但它的使用已经变得如此广泛,值得拥有自己的类别。它是Hadoop内部处理大数据的引擎,比标准的Hadoop引擎MapRece快100倍。在2016年的AtScale大数据成熟度调查中,25%的受访者表示他们已经将Spark投入生产,33%的受访者表示已经有Spark项目在开发中。显然,人们对这项技术的兴趣相当大,而且还在增长,许多提供Hadoop产品的供应商也提供基于spark的产品。3.R另一个开源项目R是一种编程语言和软件环境,用于处理统计数据。它是数据科学家的宠儿,由R基金会管理,并在GPL 2许可下可用。许多流行的集成开发环境(ide),包括Eclipse和Visual Studio,都支持这种语言。一些对各种编程语言的流行程度进行排名的组织表示,R已经成为世界上最流行的语言之一。例如,IEEE称R是第五大最流行的编程语言,Tiobe和RedMonk都排在第14位。这一点很重要,因为这些图表顶部附近的编程语言通常是通用语言,可以用于许多不同类型的工作。对于一门几乎只用于大数据项目的语言来说,排名如此靠前说明了大数据的重要性以及该语言在其领域的重要性。4. 数据的湖泊为了更方便地访问它们庞大的数据存储,许多企业正在建立数据湖。这些大型数据存储库从许多不同的数据源收集数据,并将其以自然状态存储。这与数据仓库不同,数据仓库也从不同的数据源收集数据,但对数据进行处理并对其进行存储。在这种情况下,湖和仓库的比喻是相当准确的。如果数据像水一样,那么数据湖就是天然的、未经过滤的水体,而数据仓库更像是一堆放在架子上的水瓶。当企业希望存储数据,但还不确定如何使用数据时,数据湖尤其具有吸引力。许多物联网(IoT)数据可能属于这一类别,物联网趋势正在数据湖的增长中发挥作用。市场和市场预测,数据湖的收入将从2016年的25.3亿美元增长到2021年的88.1亿美元。5. NoSQL数据库传统的关系数据库管理系统(RDBMSes)将信息存储在结构化的、已定义的列和行中。开发人员和数据库管理员使用一种称为SQL的特殊语言来查询、操作和管理这些rdbms中的数据。NoSQL数据库专门存储非结构化数据并提供快速性能,尽管它们不提供与rdbms相同的一致性级别。流行的NoSQL数据库包括MongoDB、Redis、Cassandra、Couchbase等;即使是领先的RDBMS供应商,如Oracle和IBM,现在也提供NoSQL数据库。随着大数据趋势的发展,NoSQL数据库变得越来越流行。根据Allied Market Research的数据,到2020年,NoSQL市场的价值可能会达到42亿美元。但是,rdbms的市场仍然比NoSQL的市场大得多。MongoDB:MonboDB是几个著名的NoSQL数据库之一。6. 预测分析预测分析是大数据分析的一个子集,它试图基于历史数据预测未来的事件或行为。它利用数据挖掘、建模和机器学习技术来预测接下来会发生什么。它通常用于欺诈检测、信用评分、市场营销、财务和业务分析等目的。近年来,人工智能的进步极大地改善了预测分析解决方案的能力。因此,企业开始更多地投资于具有预测能力的大数据解决方案。包括微软、IBM、SAP、SAS、Statistica、RapidMiner、KNIME等在内的许多供应商都提供预测分析解决方案。锡安市场研究公司(Zion Market Research)表示,预测分析市场在2016年创造了34.9亿美元的收入,到2022年这个数字可能达到109.5亿美元。7. 内存数据库在任何计算机系统中,内存(也称为RAM)的速度都比长期存储快几个数量级。如果大数据分析解决方案能够处理存储在内存中的数据,而不是存储在硬盘上的数据,那么它的执行速度将大大提高。这正是内存数据库技术所做的。许多领先的企业软件供应商,包括SAP、Oracle、Microsoft和IBM,现在都提供内存数据库技术。此外,Teradata、Tableau、Volt DB和DataStax等几家规模较小的公司也提供内存数据库解决方案。MarketsandMarkets的研究估计,2016年内存技术的总销售额为27.2亿美元,到2021年可能会增长到65.8亿美元。8. 大数据安全解决方案由于大数据仓库对黑客和高级持续性威胁具有很大的吸引力,因此大数据安全成为企业越来越关注的问题。在AtScale的调查中,安全是与大数据相关的第二大增长最快的关注领域。根据IDG的报告,最流行的大数据安全解决方案包括身份和访问控制(59%的受访者使用)、数据加密(52%)和数据隔离(42%)。数十家供应商提供大数据安全解决方案,来自Hadoop生态系统的开源项目Apache Ranger也吸引了越来越多的关注。9. 大数据治理解决方案与安全概念密切相关的是治理概念。数据治理是一个广泛的主题,它包含与数据的可用性、可用性和完整性相关的所有流程。它为确保用于大数据分析的数据是准确和适当的提供了基础,并提供了审计跟踪,以便业务分析师或高管能够看到数据的来源。在NewVantage Partners的调查中,接受调查的《财富》1000名高管中有91.8%的人表示,公司治理对他们的大数据计划至关重要(52.5%)或重要(39.3%)。提供大数据治理工具的供应商包括Collibra、IBM、SAS、Informatica、Adaptive和SAP。10. 自助服务功能由于数据科学家和其他大数据专家供不应求,而且工资很高,许多组织都在寻找大数据分析工具,让企业用户能够自我服务,满足自己的需求。事实上,一份来自Research and Markets的报告估计,自助商业智能市场在2016年创造了36.1亿美元的收入,到2021年可能会增长到73.1亿美元。Gartner指出,“现代BI和分析平台在过去几年出现,以满足可访问性、敏捷性和更深层次的分析洞察力等新的组织需求,将市场从it主导、记录系统报告转向业务主导、敏捷分析(包括自助服务)。”为了利用这一趋势,许多商业智能和大数据分析供应商,如Tableau、微软、IBM、SAP、Splunk、Syncsort、SAS、TIBCO、Oracle等,都在他们的解决方案中增加了自助服务功能。时间会告诉我们,这些产品中是否有一种或所有产品是真正可供非专业人士使用的,以及它们是否能提供企业希望通过大数据计划实现的业务价值。11. 人工智能虽然人工智能(AI)的概念几乎和电脑一样存在了很久,但这项技术直到最近几年才真正可用。在许多方面,大数据趋势推动了人工智能的发展,尤其是在该学科的两个分支:机器学习和深度学习。机器学习的标准定义是,它是一种技术,使“计算机能够在没有明确编程的情况下学习”。在大数据分析中,机器学习技术允许系统查看历史数据、识别模式、构建模型和预测未来结果。它也与预测分析紧密相关。深度学习是一种机器学习技术,它依赖于人工神经网络,使用多层算法来分析数据。作为一个领域,它有很大的潜力允许分析工具识别图像和视频中的内容,然后进行相应的处理。专家表示,这一领域的大数据工具似乎即将迎来戏剧性的腾飞。IDC预测,“到2018年,75%的企业和ISV开发将至少在一个应用程序中包含认知/人工智能或机器学习功能,包括所有的商业分析工具。”拥有与大数据相关工具的领先人工智能供应商包括谷歌、IBM、微软(Microsoft)和亚马逊网络服务(Amazon Web Services),还有数十家小型初创公司正在开发人工智能技术(并被大型技术供应商收购)。12. 流分析随着组织对大数据分析解决方案的能力越来越熟悉,它们开始要求越来越快地访问洞察。对于这些企业来说,能够在创建数据时分析数据的流分析是一种圣杯。他们正在寻找能够接受来自多个不同来源的输入、处理它并立即返回洞见(或尽可能接近洞见)的解决方案。当涉及到新的物联网部署时,这是特别可取的,这有助于推动流媒体大数据分析的兴趣。一些供应商提供了承诺提供流分析功能的产品。它们包括IBM、Software AG、SAP、TIBCO、Oracle、DataTorrent、SQLstream、Cisco、Informatica等。MarketsandMarkets认为流媒体分析解决方案在2016年带来了30.8亿美元的收入,到2021年可能会增加到137亿美元。13. 边缘计算除了激发人们对流媒体分析的兴趣外,物联网趋势还引发了人们对边缘计算的兴趣。在某些方面,边缘计算是云计算的对立面。边缘计算系统不是将数据传输到集中的服务器进行分析,而是在离数据产生地非常近的地方进行分析——在网络的边缘。边缘计算系统的优点是它减少了必须通过网络传输的信息量,从而减少了网络流量和相关成本。它还减少了对数据中心或云计算设施的需求,为其他工作负载释放了容量,并消除了潜在的单点故障。虽然边缘计算市场,尤其是边缘计算分析市场仍在发展,但一些分析师和风险投资家已经开始把这项技术称为“下一个大事件”。14. 区块链区块链也是有远见的分析师和风险投资家的最爱,它是比特币数字货币背后的分布式数据库技术。区块链数据库的独特之处在于,一旦写入了数据,就不能在事后删除或更改。此外,它具有高度的安全性,这使得它成为银行、保险、医疗、零售等敏感行业大数据应用的最佳选择。区块链技术仍处于起步阶段,用例仍在开发中。然而,包括IBM、AWS、微软和多家初创公司在内的一些供应商已经推出了基于区块链技术的实验性或介绍性解决方案。大数据技术,区块链.区块链是分布式账本技术,为数据分析提供了巨大的潜力。15. 规范的分析许多分析师将大数据分析工具分为四大类。第一种是描述性分析,简单地描述发生了什么。下一种类型是diagnostic analytics,它更进一步,提供了事件发生的原因。第三种类型是前面深入讨论过的预测分析,它试图确定接下来会发生什么。这是目前市场上大多数分析工具所能达到的最复杂的程度。然而,还有第四种类型的分析甚至更加复杂,尽管现在很少有具有这些功能的产品可用。说明性分析为公司提供建议,告诉他们应该做什么才能得到想要的结果。例如,虽然预测分析可能会向公司发出特定产品线的市场将会下降的警告,但是规定性分析将分析针对这些市场变化采取的各种行动,并预测最有可能的结果。目前,很少有企业投资于规定分析,但许多分析师认为,在组织开始体验预测分析的好处后,这将是下一个大的投资领域。大数据技术的市场是多样化和不断变化的。但或许有一天,预测和规定性分析工具将为大数据的未来发展以及企业应该如何应对提供建议。
21 世纪初,当技术世界还并无“维护”二字时,发动机、电梯等设备故障维修解决的是后果,而维护则是“事前诸葛”。有了预测,就可预防,维护优化工作才可真正实现提质增效降本减存。“直到 2000 年,我发现有些事情不是那么正确了,因为很多数据没有被高效地利用。”李杰教授在采访中说道。为此,先后在美国自然科学基金会(NSF)、美国联合技术公司(UTRC)担任研发要职的李杰教授在 2000 年做出了一个重要决定——去大学任教并启动工业大数据的研发。在当时,这还是一个从未被挖掘过的领域。那么,工业人工智能如何提升产业竞争力? 人工智能会造成大量失业吗?工业大数据和我们日常常说的互联网大数据究竟有什么关系?带着这些问题,小编此次采访到了身处工业自动化与机器人领域近 40 余年的科学家——李杰教授,这位为“工业大数据”命名的科学家将向你讲述关于人工智能、工业大数据领域的那些事。挖掘工业大数据的价值痛点20 世纪 80 年代初,当美国汽车产业开始逐渐意识到与日本产业之间的竞争时,自动化、机器人视觉等技术相继获得重视,美国品质革命就此开始。在此期间,李杰教授先后在美国自然科学基金会(NSF)、美国联合技术公司(UTRC)担任研发要职,主持研发了普惠发动机、奥迪斯电梯等新一代产品和项目,并资助了包括增材制造(3D 打印)与纳米制造等多个项目。众所周知,大数据的来源之广、历史背景之深共同组成了“大”的特性。但相比于互联网大数据,工业大数据来源于供应链和制造流程等众多环节,其特性更聚焦在问题点,而不是需要点。“互联网大数据是从数据中找寻还未产生价值的东西,工业大数据则是从痛点中寻找怎么避免让你‘痛’的东西。”李杰教授解释道,工业大数据与互联网大数据最大的区别在于工业大数据有非常强的目的性,而互联网大数据更多的是一种关联的挖掘,是更加发散的一种分析。换句话说,相比于互联网大数据通常并不要求有多么精准的结果推送,工业大数据对预测和分析结果的容错率远远比互联网大数据低的多。互联网大数据在进行预测和决策时,仅仅考虑的是两个属性之间的关联是否具有统计显著性,其中的噪声和个体之间的差异在样本量足够大时都可以被忽略,这样给出的预测结果的准确性就会大打折扣。但是在工业环境中,如果仅仅通过统计的显著性给出分析结果,哪怕仅仅一次的失误都可能造成严重的后果。李杰教授曾提出一个“煎蛋模型”,来阐述产品与服务价值之间的关系。蛋黄代表的是产品自身,其差异性程度并不明显,例如一台电视机在挡住了 Logo 之后就很难被区分出来是哪家公司生产的。而蛋白所代表的价值却是差异化的重要体现,也是企业的品牌和可持续性价值的所在。而数据将成为挖掘这些价值的重要手段,其主要体现在:1、利用数据挖掘在使用中获得新的知识和技术对现有产品进行改进;2、利用数据去发现和定义用户未知的需求;3、以数据为媒介向用户提供增值服务。经验可以传承,但无法长久传承,但具有逻辑性的数据可以传承。煎蛋模型,就是从大问题导向到大价值导向。蛋黄是大问题,蛋白是大价值。数据是从大问题开始,但它绝对不是目的,必须要做到大价值并发挥最好的作用。就在不久前,由工业和信息化部指导,中国信息通信研究院、工业互联网产业联盟主办的第二届工业大数据创新竞赛决赛答辩正式落下帷幕 [注]。作为竞赛连续两年评审团的专家,李杰教授在倍感欣慰的同时也深有感触。高校参赛者的基础算法能力虽不容小觑,但是由于没有基础数据,项目构建过程中仍有很多问题。对此,李杰教授总结道,若要真正实现智能制造,我国仍需要一批工业大数据的年轻生力军,下到工厂,让算法的能力补偿有经验的专家,相互结合补充,共同助力工业智造高质量发展。工业智造关键要素 ABCDE传统人工智能概念始于上世纪 50 年代。半个多世纪以来,人类利用自然语言、神经辨识、神经网络或形象辨识等方法,让机器学习规律,进而提供广泛维度解决方案。相较于前者,工业人工智能隶属垂直领域,其属性聚焦于工业制造系统,涉及汽车、飞机、轮船等移动工具的安全性、节能性、耗油性,工业制造机器人的稳定性、精密性、风力发电的效益性、节能性等相关课题。李杰教授在谈到工业人工智能的关键要素时说道,工业人工智能可以用“abcde”的特征进行分类,这些关键要素包含分析技术 (Analytics Technology),大数据技术 (Big Data Technology),云或网络技术 (Cloud or Cyber Technology),专业领域知识 (Domain Knowledge),证据 (Evidence)。分析(A)是 AI 的核心,它只有在其他要素都存在时才能产生价值。大数据(B)与云(C)是提供数据来源和工业人工智能平台必不可少的两个要素。然而,专业领域知识(D)和证据(E)也是常常被忽略的两个重要因子。专业领域知识(D)是下列事项的关键要素:1、了解问题并专注于利用工业人工智能去解决它;2、理解系统以便于收集正确且高质量的数据;3、了解参数的物理含义以及它们如何与系统或流程的物理特性相关联;4、了解这些参数因机器而异。证据(E)也是验证工业人工智能模型以及它们与累积学习能力相结合的重要要素。收集数据形态模式及与它相关联的证据,我们才能改进 AI 模型使之更加准确全面并且与时俱进。这也是当代人工智能、工业大数据领域从业者需要具备五个重要资质。现如今,人工智能时代已悄然来临,机遇就在前方,发展就在脚下。但自 AI 热潮掀起以来,业界对于人工智能取代人类工作的讨论就没有停止过。对此,李杰教授表示人工智能并不是取代人,而是在做人类做的不好,或者人类不想做的事情。早在上个世纪 80 年代的美国,人工智能就已应用在一些简单的控制领域,包括机器人,机器视觉,形象识别等技术。而机器人智能化并不是要取代人们工作,而是帮助人找到一个更高效、更灵活、更健康的环境。当业务的空间维度高,复杂性高,不确定性高的时候,人工智能就可发挥自身优势,协助人类进行工作。[注]:2019 年 1 月 13 日,由工业和信息化部指导,中国信息通信研究院联合工业互联网产业联盟、华为、富士康、积微物联共同主办的第二届“中国工业大数据创新竞赛”决赛答辩会议在中国信息通信研究院隆重举行。竞赛自 2018 年 11 月启动以来,吸引了来自海内外近 3000 名参赛选手。两道竞赛题目分别为“钢卷仓储吞吐量预测”和“刀具剩余寿命预测”,由清华大学软件学院王建民院长和美国智能维护系统(IMS)中心主任、富士康工业互联网副董事长李杰教授分别担任专家组组长。联合主办方华为公司也为竞赛提供了云计算资源和华为云 EI 机器学习服务的支持,富士康和积微物联分别提供了真实数据资源和应用场景。同时,竞赛也得到了北京工业大数据创新中心、昆仑数据、天泽智云、美国国家仪器、ABB、蒂森克虏伯等国内外企业和研究机构的大力支持。来源:东北新闻网
编者按 对人文学者来说,作为工具的计算机,已从文献检索时代进入到数据分析时代。计算机不仅能帮助我们从海量文献中快速检索到所需的资料,还能以数据为基础帮助我们发现问题和分析问题。随着数字人文技术的发展,数据分析的技术和方法越来越有针对性和强效性,能清晰地揭示隐藏在文学史背后的作家与社会之间、作家与作家之间、文本与文本之间的直接与间接、显性与隐性的多种关联,能以全知型的视角系统整体地还原和呈现文学史的立体景观,改变传统的思维方式和文学研究范式。目前的中国古代文学研究,在数据分析方面虽然已经起步,但还没有完全跟上数字人文的发展步伐,可用于统计分析的关系型文学数据库建设还比较薄弱,适用于古代文学研究的分析工具、分析方法、分析模型还相当有限。近些年学界和业界推出了相当丰富的数字化的文献资源库,如《中国基本古籍库》《中华经典古籍库》等,但主要用于检索,还不是结构化的能进行统计分析和再生知识的数据库。运用数字人文的分析工具和技术方法来研究古代文学,也取得了一定的实绩,但还处在尝试性阶段,未成规模,影响不大。为推进数字人文技术在古代文学研究中的应用与突破,本期约请清华大学中国古典文献研究中心数字人文研究团队的刘石、孙茂松、张力伟和刘京臣四位先生从不同的角度笔谈他们的构想和规划。刘石、孙茂松先生构建了古典文学研究的分析模型,刘京臣先生阐述了基于社会网络分析的文本与人物研究的理路,既有理论的前瞻性,也有方法的可操作性;张力伟先生提出了建设“中国古典知识库”(CCKB)的宏大构想,令人期待!(王兆鹏)一20世纪60年代,电脑就被西方国家运用于人文学科研究,称为“人文计算”。美、英、法、德等国利用大数据技术研究文学开展得早、影响大,相继成立了国家级项目组或研究中心,致力于莎士比亚戏剧、法国中世纪诗歌等多语种文学经典的内容分析,产生了一批引人注目的理论著述与应用成果。进入新世纪,一些研究机构及企业开始对书籍进行大规模数据化。谷歌与哈佛大学共同研发的数据库可对1600年至2000年间出版的500多万册书籍的单词和短语的使用频率进行统计,通过关键词使用频率的变化,可以崭新的视角揭示500年来人类文化发展史的总体趋势。伴随人工智能技术的进步,机器的深度学习在文本分析方面展现了惊人效率。《布谷鸟的呼唤》原是《哈利·波特》的作者J. K. 罗琳于2013年匿名发表的小说。牛津大学的Peter Millican和杜肯大学的Patrick Juola运用法律语言学的分析方法对比分析,推测它很可能是罗琳的新作,最后,罗琳承认这部小说确出己手。国内在20世纪80年代也出现了“人文计算应用”的概念,一些学者开始致力于运用电脑技术研究人文课题。早期对古典文学尤其诗词的研究多为计算机或统计专业的学者。厦门大学周昌乐教授课题组针对宋词风格“豪放与婉约”的分类问题,研创了基于字和词为特征的风格分类模型、基于频繁关键字共现的诗歌风格判定方法以及基于词和语义为特征的风格分类模型。首都师范大学尹小林教授最早研发了“《全唐诗》检索系统”,北京大学李铎教授也研发了“《全宋诗》分析系统”“《全唐诗》分析系统”“《资治通鉴》分析系统”等。北京大学杜晓勤教授研发的“中国古典诗文声律分析系统”首次实现对中国古典诗歌及有关韵文进行批量四声自动标注和八病标识、数据统计功能,不仅有助于研究永明体诗歌的声病情况,还可考察永明诗律向近体诗律演变的环节和过程。中南民族大学王兆鹏教授是较早采用量化分析研究古代文学经典的专家,他先后主持了“中国古代诗歌史的计量分析”“20世纪唐五代文学研究论著目录检索系统与定量分析”等多个项目,尤其是唐宋诗词名篇的定量分析(排行榜)及国家社科重大项目“唐宋文学编年系地信息平台”引发了社会的普遍关注。郑永晓先生数年前已经呼吁古典文学研究从数字化向数据化的转变。基于大数据技术对古代文学经典文本进行高效和深度分析,可将文学研究纳入到一个更宏观的视野,提高研究结论的精准性、稳定性及可验证性,促生新的研究理念、方法与范式。但总体来看,古典文学研究领域目前还基本处在古籍数字化、数字化检索和少数专题数据平台建设阶段。二现阶段数字人文研究的主要技术方法,包括机器学习与人工智能、数据库建设、计算语言学、社会网络与地理信息系统、数据与文本挖掘等方面。这些技术方法可分别用于古典诗歌分析系统的尝试、作家生平事迹研究、古典小说研究、文本与人物研究、文体与文论研究,涵盖了古典文学研究的主要方面。基于这样的理解,我们拟以先秦至明清品类纷繁的古代文学经典文本为中心,利用计算机、统计学、信息科学等学科的新兴技术手段,形成如右上图所示的研究结构。研究的流程是文学专家提出问题——技术专家设计算法模型——借助知识库或数据库等平台进行文本分析——文学专家对分析结果进行解析和研究。数据库建设、技术创新运用与文本研究三位一体。数据库是基础,文本分析技术是关键,最终要落实到发掘依靠阅读经验难以发现的文本组织特征及相互关系,通过定量统计、定性分析,解决古典文学研究领域长期存在的疑而难决的作品归属、作品辨伪、异文辨析、修辞特色、风格生成、题材变迁、因革影响等方面的问题,期望在以下诸方向有所推进:1. 重新验证已有成说的经典史论问题。比如,提出“文必秦汉,诗必盛唐”的明代前后七子为代表的文人群体,其诗文创作是否落实和如何落实其文学创作的主张?利用共词分析、语义分析、人物事件交杂等技术思路,尝试全新分析和解决诸如文体形式、社团流派、人物关系、情节演进、阶段特征、历史影响等问题。2. 解决人力难以彻底解决的疑难问题,为作品归属、重出异文、改编续写、风格流派、文类划分等提供新的证据、思路与方法。如唐宋诗“体格性分之殊”的判断,诗词曲三种相近文类格律、用韵、题材、语词、典故、句法、意象、风格的穷尽性统计,为定性分析提供数据支撑,可以提高研究结论的精确性、稳定性及可验证性。3. 超越主观感受与印象分析层面,科学梳理文学史长时段中存在的特征、规律、关联性问题。比如陆游诗近万首,词自中唐产生而历经各代,他或它们的题材、修辞、风格变化轨迹究竟如何,数者之间的关系怎样?通过对一个作家或一类作品的“深度学习”(计算语言学专业术语),发挥其文本比对、关联分析等技术优势,追踪挖掘以往不曾注意到的迹象或线索,以期提高文学经典研究的可靠性与科学性。三利用大数据技术研究中国古代文学,对学术发展和学科建设的意义是明显的,特别体现在研究范式与思维方式的革新。傅斯年认为,“凡一种学问能扩张他所研究的材料便进步,不能的便退步”。大数据技术可以实现相关研究史料的全覆盖,是对以往研究资料的极大扩充。目前研究中普遍存在的检索依赖会造成史料的类型遮蔽,特别是反证材料的遮蔽。检索依赖也会导致对史料的解读脱离历史语境,无数孤零零的没有历史气息的材料断片的组合,无法反映真实的历史场域中的问题。文学研究者接受的信息如果是非全息的,文史研究的科学性和有效性必然值得怀疑。全数据分析模式抛弃了随机性的样本研究模式,让研究者具有“上帝视角”,重视对事情整体系统的感知,又强调基于全数据的细节化,提高认知的精确度,是一种理想的学术研究模式。传统的文献材料彼此间基本上呈现出相对明显的线性关系,可以找到前因后果,进而形成相对完整和自洽的因果链。大数据时代面对的只是具有相关性的海量数据,几乎不可能找到每个数据的微观因果链,如果坚持因果路径,将陷入无穷无尽的因果关系之中而茫然无措。因此,大数据时代不必非得知道现象背后的原因,而是让数据自己发声。对思想、情感和艺术为主体的古典文学学科而言,强调差异性、变异性和独特性的相关性分析方法比因果性分析方法可能具有更强的裁断力。大数据技术的兴起,使数据采集、存储和处理极大地智能化、自动化。“全数据模式”将与问题相关的数据一网打尽,最大限度地摆脱客观条件局限造成的以局部论全部,问题可以得到更系统、更全面、更整体的刻画,从而得到更精确、更彻底的解决。这是数据化带来的一种严格意义上的整体论,将使思维方式从还原性思维走向整体性思维。历史与逻辑、事实与价值的统一是人文社科研究的基本方法,大数据时代的研究尊重全体材料、重视量化分析和兼顾所有关系,这将有助于促进人文学科的研究由“解释性”向“求是性”转向。随着人的思想、情感、心理的数据化,人文学科的研究对象也能够实现数据化,可以通过数据挖掘、数据分析和数据建模来进行研究,这样人文学科也就由以往被认作非科学的学科跻身于科学成员的大家庭中,进而发展出人文科学。总之,大数据思维为人文社科研究的变革与创新带来了千载难逢的历史机遇,正如美国康奈尔大学教授杰弗里·汉考克(Jeffrey T. Hancock)所说:“这是社科研究的一个全新时代,就好比显微镜的诞生对化学科学发展所起到的促进作用。”需要指出的是,古典文学研究中新技术手段的应用需要充分依靠计算机科学和统计学的专业技术,在尚缺乏此类技术力量的今天,必然会促进学术研究人力资源的整合,倒逼跨学科合作研究的开展。但文学性问题的提出和分析处理不可能完全交给机器,也就不可能完全交给技术专家。相反,从问题的设置到语料的选取再到分析结果的解读、意义的阐释、体系的建构等,都将由古代文学和文献学相关领域高水平的专家学者完成。(作者:刘石,系清华大学人文学院教授;孙茂松,系清华大学计算机科学与技术系教授)
首先,答案是肯定的,大数据专业的本科生在读研的时候完全可以选择人工智能的相关方向,包括自然语言处理、计算机视觉、机器学习、自动推理等,还可以选择与人工智能相结合的方向,比如智能装备等。大数据专业是一个典型的交叉学科,涉及到数学、统计学和计算机三大部分内容,所以大数据专业在读研的时候可以有更多的选择,既可以选择传统计算机相关的研究方向,也可以选择大数据、人工智能相关方向。大数据专业读研选择人工智能方向,存在以下几点优势:第一:大数据本身与人工智能关系密切。人工智能的研究需要三方面的支撑,包括数据、算力和算法,在大数据的支撑下,目前人工智能在很多领域已经有所突破(机器学习等),所以数据对于人工智能的研发具有重要的意义。第二:人工智能是大数据的重要出口。从应用层面来看,大数据并不是最终的目的,最终的目的是如何应用数据,而人工智能就是大数据重要的应用出口。所以,不少大数据方向的研究走到一定程度都离不开人工智能技术的参与。第三:基础知识结构比较统一。大数据与人工智能在基础知识结构上比较统一,所以从大数据往人工智能方向发展并不会感觉有明显的跨度。在大数据分析中经常采用的方式就是统计学方式和机器学习方式,所以很多大数据专业的本科生对于算法设计、算法实现、算法训练等研究步骤已经比较熟悉了,而这些步骤也正是人工智能研究的常见步骤。最后,大数据从某种意义上可以看成是人工智能的基础,所以本科阶段选择大数据,到研究生阶段选择人工智能是不错的选择,也会有较大的上升空间。我从事互联网行业多年,目前也在带计算机专业的研究生,主要的研究方向集中在大数据和人工智能领域,我会陆续写一些关于互联网技术方面的文章,感兴趣的朋友可以关注我,相信一定会有所收获。如果有互联网、大数据、人工智能等方面的问题,或者是考研方面的问题,都可以在评论区留言!
不久前,“人民一号”卫星在太原卫星发射中心搭载长征二号丁运载火箭成功发射,引发舆论广泛关注。“人民一号”卫星将丰富人民数据的数据来源、数据产品和数据应用,标志着人民网进军航天大数据领域。互联网时代,一切信息皆可成为数据。当前,舆情分析进入舆情大数据阶段。很多党政部门、研究机构、媒体与商业平台积极引入舆情大数据技术进行舆情监测、分析与管理。人民网舆情数据中心从2007年7月推出国内第一份舆情分析报告《山西洪洞县黑砖窑事件舆情监测报告》,到目前运用多种技术采集、挖掘、分析数据,舆情分析正在向舆情大数据的新阶段迈进。本文尝试将舆情大数据的应用与发展划分为三个阶段,以期为相关工作的推进提供参考。第一阶段:分析与预警习近平总书记指出:“要运用大数据提升国家治理现代化水平。要建立健全大数据辅助科学决策和社会治理的机制,推进政府管理和社会治理模式创新,实现政府决策科学化、社会治理精准化、公共服务高效化。”这提示我们,在舆情大数据领域,掌握和运用大数据不仅可以为舆论引导与社会治理提供支撑,防范和化解各领域重大风险,而且可以提升社会服务水平与效率,促进国家治理体系和治理能力现代化。中国互联网络信息中心(CNNIC)第44次《中国互联网络发展状况统计报告》显示,截至2019年6月,我国网民规模达8.54亿,普及率达61.2%。网络舆情成为最主要的社会舆情传播方式。因此,对于舆情数据的第一阶段而言,必须具有全面的数据收集能力、强大的分析能力以及实时的预警能力,即事件发生且在网络传播后,能全面抓取相关数据进行分析,实现风险预警,为相关部门舆论引导、舆情应对与决策提供数据支撑。舆情大数据第一阶段主要包括以下几个功能:一是基础呈现功能。利用舆情大数据实时了解网络舆情动向,精准把握网络舆情态势。包括一定时期内相关事件(话题)在各网络平台的媒体报道与网民讨论量、舆情传播走势与脉络、舆情传播溯源(舆情策源地)以及相关报道评论的排序(如在微博平台,以转发、评论、阅读量等数量指标对相关微博进行排序)等。二是预警功能。若能在舆情事件潜伏期实现实时预警,并在舆情风波产生初期及时反应,无疑能以最小代价妥善处理。舆情大数据预警功能主要包括:1.数量预警。即对相关事件(话题)在各网络平台的媒体报道与网民讨论数量进行预警。如对舆情级别进行量化,分别对应相关网页新闻、微博文章、微信公众号文章、头条号文章、贴吧论坛帖文等的数量。2.重点媒体及人群预警。如舆情相关信息是否出现在主流媒体报道、新闻网站首页头条、网络活跃人士转发跟评、微信公众号“10万 ”阅读量文章、不同网络平台热搜等,均可作为预警的指标。3.内容(关键词)预警。主要根据内容的敏感性对舆情进行预警。比如某食品企业将“劣质”“超标”等定为最高预警,要求公司主管予以关注。对于“服务差”“不可靠”等网络相关内容定位一般预警,要求保持关注,并留意相关动态。三是群体画像功能。群体画像基于网民一系列历史或行为数据,有针对性地提取有效特征,总结出不同用户群体的信息面貌。在舆情大数据领域,主要包括相关发声网民群体的整体年龄、性别、教育水平等社会学画像,以及网民发声的倾向性分析,包括正面、中性、负面等。第二阶段:预测与风险防范如果舆情大数据第一阶段是针对已发生事情进行精准分析,那么第二阶段则是对未来事件进行研判与预测,从而防范与化解各领域重大舆情风险。当前,舆论动向、群体行为、社会态度、公众情绪、社会认知等,都能一定程度借助互联网大数据得到准确、可视化的测量和呈现。如滴滴、美团、携程等电商平台的大数据,均可部分反映当下经济运行状况与国人活动轨迹、行为方式及消费能力等;微信、微博等网民互动、内容数据,可反映出社会对各领域、话题的价值判断与心态变化。通过这些互联网大数据的挖掘与整合,可为防范重大风险提供有力的数据支撑。比如,人民网舆情数据中心基于网上大数据分析,为中央网信办、最高法、公安部、教育部等200余家党政机构及国企提供舆情监测预警与应急处置咨询。交通部门和各城市酝酿网约车管理规范时,邀请人民网利用移动出行平台数据,描绘专车司机、专车乘客画像,帮助准确把握网约车利益相关方的诉求,妥善决策,减少网约车改革的震荡。当前,通过媒体、论坛、博客、微博、微信、短视频、音频等各个网络平台数据的全面抓取和挖掘,再通过语义分析、关联分析等进行预测,能够一定程度把握规律。比如,国外一些研究机构通过社交媒体数据成功预测流感暴发,以便政府部门及医疗机构能够拿出应对措施。早在2008年,Google公司开发了“谷歌流感趋势”(Google Flu Trends,GFT)软件,利用Google巨大的用户搜索数据,提前1—2周预测美国流感病例百分比的变化趋势。虽然结果存在误差遭到质疑,但开启了大数据预测的先河,为相关领域提供启示。2013年,美国一些研究员利用Twitter数据进行自动过滤,留取与流感相关的记录,再通过无监督算法结合流感的空间时间信息进行预测,发现预测结果与真实数据的相关系数达到0.97。再如2016年美国大选期间,印度的Mog IA系统,通过搜集Facebook、Twitter、Google等互联网上千万个数据来源并进行分析,成功预测特朗普当选。而美国一些传统民调公司纷纷预测希拉里当选,这与大选最终结果大相径庭。第三阶段:引导与干预从舆情角度看,分析与预测最终是为了舆论引导与干预,这是舆情大数据的第三阶段。社交媒体中的大量用户数据为舆情引导提供了发展空间,可以利用社交网络用户的公开数据,分析用户的特征与偏好,进而有针对性地引导。在2016年美国总统大选期间,就有媒体报道网络数据科学公司推出了一系列广泛的广告宣传活动,目标是基于个人心理来说服选民。这种高度精密的微目标操作通过大数据和机器学习来影响人们的情绪。根据对不同选民在不同论点上敏感性的预测,而发送不同信息。每个选民都可以收到一条定制的信息,强调某一特定论点的不同层面。2018年3月,外媒报道Facebook公司5000万社交媒体用户信息被第三方公司“剑桥分析”用于大数据分析预测用户政治倾向,根据用户的兴趣特点、行为动态精准投放广告和资讯内容,成为间接影响总统大选的力量。更有英美媒体报道称,这家分析公司曾经受雇于推动英国“脱欧”的阵营。有评论认为,该公司的运营活动操纵选民情绪,对于政治选举的公正性造成不利影响。西方利用大数据分析、研判影响政治活动,从一个侧面说明,借助大数据,舆情是可以评估的;有了大数据,人心是可以测量的;只要摸准情况,舆情也是可以引导与干预的,进而为主流媒体舆论引导以及政府科学决策、民主决策、精准进行社会治理提供数据支撑。比如,主流媒体可通过媒体、论坛、博客、微博、微信、短视频、音频等各个网络平台数据的全面抓取和挖掘,再通过语义分析、关联分析等,为当前各社会阶层、群体进行大数据画像,从而精准把握他们的阅读兴趣爱好、意见诉求及心态变化等,提高新闻宣传与引导的精确度。例如,人民日报新媒体中心的“人民号”,不断优化算法推荐技术,推出用主流价值导向驾驭的“党媒算法”,打造良性传播生态。再如,主流媒体通过与大数据深度融合,实时抓取网民在微博、微信等社交平台公开发布的信息,形成新闻素材与新闻线索,既增加新闻报道的丰富性,又把大众最感兴趣的东西报道出来,实现新闻报道有效传播。从舆论引导角度看,舆情大数据第三个阶段主要是利用大数据,实现从“说什么”“跟谁说”到“怎么说”的跨越。“说什么”“跟谁说”均需要大数据抓取,进而分析事件(话题)基本状况、哪些网民可以引导,而“怎么说”,涉及舆论引导的“时度效”。目前,国内舆情大数据研究多处于第一或第二阶段。但随着人工智能、云计算、大数据等互联网领域最前沿科技的进一步发展,舆情大数据研究将进一步发展,切实提高舆论引导与社会治理现代化水平。(作者:人民网舆情数据中心主任舆情分析师 廖灿亮)
大数据时代,带来的不仅仅是数据技术的进步和服务市场的增长,它影响到我们生活的方方面面,从简单的购物消费,到网上娱乐、交通出游,甚至人与人之间的交往方式。同样,大数据时代,传统营销方式面临变革,大数据为品牌传播提供了新的机会和方法。一、大数据为品牌传播提供新的机会传统的营销环境下,品牌传播方式经历了从理性、感性到精神信仰的三次转变,但基本内涵没有改变,都是从品牌出发,与消费者、市场进行单向沟通。互联网环境下,新媒体、社交网络的发展和用户群体增多,品牌传播出现一些新的方式,比如实时营销等,消费者与品牌开始产生互动。但是,在传播过程中,消费者大部分仍处于被动地位,如果没有品牌的主动传播,很难会实现双向的信息流动。在大数据时代,这样的局面有所改变。首先,每个人都是数据的生产者、使用者,每个人都可以主动搜索各类信息,包括品牌信息;同样,人们对品牌做出评价,而这些评价信息又被品牌快速、尽可能详细准确地捕捉、分析并作出回应。其次,大数据时代建立了人人平等的观念,没有主次之分。品牌作为传播的主体发起传播活动,作为个体的消费者同样能够吸引人们的眼球,甚至对品牌产生影响。再者,大数据为品牌提供了无限可能,大体量、多样性、高价值、高增速的数据意味着生活在数据海洋中的我们可以被逆向构建,根据数据还原居住地区、生活方式、消费习惯,甚至预测行为。大数据为品牌传播提供的新机会,包含三个层次。一是新了解。企业可以通过分析大数据,在深度和广度两个层面对市场、消费者、竞争对手和自身都有前所未有的准确了解。大众市场、目标市场的概念不再适用,取而代之的是个人市场;不再将消费者一概而论,而是进行个性化营销;对竞争对手和自身的新了解则意味着新的竞争方式、传播策略。了解还包括消费者对品牌的了解。大数据有助于改变过去的信息不对称,消费者利用多种途径了解品牌信息,同样成为传播的主体。二是新工具。大数据提供的可能性,不仅仅是理论上的。品牌传播借用数据分析工具,进行更加准确、个性的广告投放,或者是全平台、跨媒体,或者是单一媒体、单一网站、单一方式,具体取决于数据分析结果。三是新思路。微博、微信的相继兴起,迫使品牌重新思考传播的过程,已经有不少企业开始重视消费者在传播过程中的能动性、主动性,尝试由粉丝生产内容、与消费者互动。大数据时代的一些传播案例在传播思路上是颠覆性的。例如TheNorthFace的社区网站进行去品牌化、用义工的心态做网站,在网站中很少看到NorthFace主动产生的内容,但这并不妨碍人们对它的认知和归属。新的营销环境中,品牌不再是冰冷的,人们不喜欢中规中矩,而是有鲜明性格特色的,如“爱运动”的耐克、“卖萌”的杜蕾斯等。二、大数据带来品牌传播方法变革(一)变被动为主动,实现前瞻和预测功能消费者洞察一直是品牌传播者需要研究的课题。从早期市场营销理论主张的以产品为核心的传播理念,到整合营销传播理论提出必须重视消费者的中心地位。时至今日,品牌经营者已经更深刻地认识到消费者沟通的重要性,但在实际运作方面还存在从主观经验角度出发揣摩消费者心理、臆断决策等问题。以品牌代言人的选择策略为例,百事签约吴莫愁是利用大数据进行代言人甄选的典型案例。百事可乐在选择代言人之前,对网络各项数据进行分析,百度指数、百度风云榜数据显示吴莫愁的关注度和知名度非常高,虽然有负面信息,但综合数据表明她具有相当高的美誉度,并且鲜明的个性与百事的品牌调性相符合。在代言人传播地域的选择方面,则通过大数据分析,吴莫愁的关注人群集中在中国北部城市,因此判定可以在相应地区加大广告投放力度。相较以往,品牌代言人选择的主观性成分较多,往往从浅表层面上去考量代言人的关注度、美誉度、公众评价等,有时很容易忽略更为真实和本质的信息,如果有一些负面信息干扰,品牌决策者很可能会放弃这位代言人,也就因此缺失了有利的传播机会。百事可乐利用大数据研究锁定吴莫愁,实现了大数据引导下的主动出击,透过表层的现象抓到了数据背后的本质信息,在传播思路上实现了前瞻和预测的功能。(二)营销传播的精细化和个体化传统营销模式是对目标群体采取同一化的信息传播和沟通,品牌无法关照到不同目标受众之间的个性和信息接受习惯。从受众心理角度看,大众化和群体化的传播方法无法实现品牌对消费者的个体关注,无法让消费者体验到品牌折射出的自我价值。随着媒介融合时代的到来,新技术的运用为消费者洞察提供了更多的关注方式。但不可回避的问题是,庞大而繁杂的调查过程使品牌传播的策略路径举步维艰。大数据在合理时间内的攫取、处理功能,有效节约了时间成本,并且在确定了目标受众的信息框架后,还可以对目标受众进行深入细分,细分标准则通过对受众做出的评价、分享等诸多数据的分析来建立。将营销传播对象由大众层面、群体层面细化到小众和个人。比如,同样是忠实消费者,可能存在购买频率和品牌认知方面的差距,不同购买频率决定品牌不同的投放时机,虽然投放内容相同,不同的时机却决定了投放效果和是否产生购买行为。对品牌认知的差距,意味着品牌要对这些人群进行不同的信息投放,以360为例,有的人看重360的安全,那么对他们就要着重凸显360自身的专业;有些人可能对周鸿祎个人比较感兴趣,那么在投放信息时就可以利用周鸿祎制造关注点。(三)大数据有助于实现跨媒体、跨平台的品牌传播近几年来,消费者网络使用习惯的建立使得越来越多的广告主在整合传播中加入线上策略。然而,能够实现真正意义上的跨媒体、跨平台沟通绝非易事。2011年,日本电通从消费者洞察、传播效果、沟通、信息接触点四个方面对跨媒体沟通作出定义,即:跨媒体沟通是基于对目标人群心理特征及媒体接触特点的洞察,考量传播的“广度”(到达率以及接触频次)和“深度”(参与度),并作为营销传播的“沟通导线”,与多个信息接触点的有效结合。电通的跨媒体沟通定义已然表明,跨媒体沟通并不意味着广告主只要在不同的媒体投放、覆盖不同的形式就可以实现,所有广告、促销、公关、线上线下活动等都必须围绕同一个核心创意点,着眼于如何组合信息接触点,设计沟通导线,并且各有侧重、相互配合,将目标受众引导至最终的目的地,实现沟通和传播。以往跨媒体传播的难度在于无法对目标受众的接受习惯、行为方式等准确把握,研究成本、投放成本太高。在大数据时代,这些困难都可迎刃而解。例如日本的集英社《JumpSQ.》的创刊主题传播活动,就是在准确把握目标受众的生活习惯、媒体使用方式、心理、兴趣爱好等各方面信息的前提下,设置信息引爆点,打破信息屏障,成功实现品牌的传播,不仅杂志销量空前提升,品牌知名度和美誉度也获得高涨。(四)实时互动,有效沟通大数据带来的品牌传播方法变革更表现在品牌与消费者的互动沟通方面。以往通过传统的市场调研方法,调查受众和目标消费者的品牌偏好等信息难以得到较准确的结果,不利于品牌传播策略的制定。但是,受众在无意识状态、自由环境下发出的信息,往往是最真实可信的。再借助分析工具、软件,便可以在数据中识别人们的兴趣爱好。例如在微博创建的宽松环境下,品牌在进行网络传播时以隐蔽的方式设置一个话题,让粉丝们展开相互的交流,随后借助监测、分析工具,对这些数据加以整合,获得的信息就是相对客观的。同时,品牌在必要时又可参与讨论,双方形成实时互动,如同朋友间面对面聊天,这种沟通的效果是快速、平等而有效的。(五)营销执行可控、效果可评在营销运作的环节,单纯的线下营销往往是按部就班式的,难以灵活应对各种突发状况。例如在执行过程中如果出现公关危机,常规的处理方法是执行者上报,然后等待处理方式。在等待的过程中,品牌失去了传播沟通的先机。大数据可以让营销执行的过程实现可控性。无论是运作的安全时间,还是危机时刻,通过对网络上本事件的相关评论、分享话语进行语义分析,判断出现问题的根源以及人们对此事件的真实看法,从而据此制定公关方案。以往对于营销效果的评价一直是个难题。虽然传统营销体系存在复杂的算法和计算公式,但是面对互联网的浩瀚数据,要想把支离破碎的数据代入公式并不容易。大数据为我们提供了一些特别的评估方式。例如,点“赞”意味着受众的赞同或感兴趣,“转发”或“分享”意味着信息的二次甚至多次传播,在广告页面的停留时间说明对广告信息的掌握程度,观看顺序、点击次序则说明个人兴趣点的不同对诸如此类的数据加以整合分析,可以辅助判断此次营销活动的受关注度和成功与否。三、基于大数据的品牌传播新方法(一)依靠大数据产生的有价值信息进行内容营销品牌观念需要长时间的培养,内容营销也是一项长期工作,注重通过长期向目标客户传达有意义、有价值的信息,影响现有顾客和潜在顾客,最终改变顾客的购买行为和认知理念,达到培育品牌忠诚度的目的。内容营销的关键在于如何生产对顾客有意义、有价值的信息。通过对各类网络数据的定向整理分析,挖掘品牌受众群体对内容的兴趣倾向,结合其浏览习惯和媒介接触情况,可创造有意义、有价值的信息进行推送。例如,美国的PureDiscovery公司提供兴趣图谱搜索服务,它能够从支离破碎的数据中找出内在联系,为每个人建构兴趣图谱,根据用户的兴趣图谱,主动推送用户感兴趣的内容,而非单纯告诉用户链接地址是什么。如果用户对麦当劳感兴趣,它就可以只推送有关于麦当劳的新闻、广告和优惠,以及其他对麦当劳感兴趣的人的动态、分享等各方面信息。久而久之,长期的曝光率和高关注度下,达到内容营销的效果,品牌意识也会逐渐增强。(二)辨别每一位有需求的顾客,实现小众化、个性化传播生活中每个人的需求、兴趣不同,大众化的品牌传播湮没了人们个性的需求和对自我的彰显,无法差异化关照每位顾客。大数据为我们带来的机遇之一就是在数据分析基础上,逆向构建一个人的生活状态、兴趣爱好、所需所感,进而为顾客创造个性化的解决方案、服务措施。当一个品牌能够切实满足顾客的个性需求,并与之建立良好的关系时,就能真正进入他的内心,培育起对品牌的忠诚和信仰,这种地位是任何广告语所无法达到的。以TheNorthFace的社区网站为例,在网站设置的PlanetExplore平台上,每位会员可以选择自己喜欢的活动、组织、户外名人,甚至想参与的义工服务。在个性设置的基础上,会员收到自己感兴趣的信息,避免了无意义的垃圾内容。而NorthFace则掌握了用户详细的喜好和地理位置信息,在执行品牌传播时,就可以针对每个人制定不同的宣传策略和讯息,如此个性化的传播方式其投放效果和转化率会比大众化的传播高出很多。如若再与会员的社交网络实现交叉和数据共享,品牌传播的效果将进一步扩大。(三)多维度个性下的品牌分层传播品牌个性是消费者所感知的品牌所体现出来的性格特征,在消费者心智资源里,品牌个性具有多维度特点。这就启发品牌在进行传播、与消费者沟通时,需要经常转变角色,以消费者喜欢和希望见到的个性来交流。可以说,品牌个性不是品牌自己赋予或创造的,而是作为一种资产在与市场、消费者长期打交道的过程中,在他们心智中慢慢留下的印象。通过对数据的搜集、语义分析、趋势预测,观测消费者对品牌的评价、期望,在此基础上,品牌可以描绘出自身在消费者心智中的不同个性维度,并按照个性维度将消费者划分为不同的群体,针对不同群体,以相对应的个性维度进行沟通、传播。多维度下的品牌传播,使得传播具有更强的针对性,也更易被目标所接受,小范围、区别化的传播方式,不仅节约了传播成本,效果也得到提升。以舒肤佳为例。根据千家品牌实验室提出的品牌个性维度,结合消费者对舒肤佳感知的品牌个性,我们可以将舒肤佳的品牌个性定义为三个维度,包括:务实,即消费者认为的“顾家”“小时候妈妈的关心”;健康,舒肤佳“有效除菌护全家”,这是贯穿两代人的概念;可靠,一提到舒肤佳人们会想到身穿白大褂的研究人员,专业、放心。不同的个性维度对应着不同的人群,顾家对应的是身为母亲的、30~45岁的中年妇女,她们常常接触的媒介是电视;对健康、除菌认识更深的是小时候受过电视广告、妈妈影响的年轻一代,互联网是他们经常使用的工具;专业、放心维度对每类人都有或多或少的影响。根据不同人群的认知和他们常接触的媒介,舒肤佳就可以有针对性地投放不同内容的宣传。如对年轻一代,发送舒肤佳的个性化邮件,提醒在繁忙工作生活中注意卫生,加入怀旧色彩的内容画面,更重要的是可以唤醒他们心中对“妈妈的关心”的回忆,将舒肤佳与对妈妈的感谢联系在一起,借此加深舒肤佳在其心中的烙印。(四)善于利用移动数据找准突破点智能手机、平板电脑的普及和应用,让众多品牌投身移动营销。通过移动搜索、GPS定位、签到分享软件以及移动运营商提供的数据,品牌可以轻松锁定目标人群,进行个性化营销,将移动数据转换为实际价值。但是,以往的简单签到等模式对受众的吸引力十分有限,而且如何将签到数据转变为实际营销价值也很困难。大数据时代,移动营销的效果往往取决于兴趣主导型的策略创意。典型案例如危地马拉MeatPack体育用品店开发的手机应用“Hijack”,对顾客进行GPS定位,当进入竞争对手的店中时,“Hijack”会自动启动,开始进行从99%倒数减少的折扣,直到跑进MeatPack的店中才停止,这个数字就是得到的折扣。一周之内有超过600名顾客从竞争对手的店中跑进MeatPack,甚至有人拿到了89%的折扣。获得优惠的顾客还可以在Facebook上分享,让信息获得二次传播。在此过程中,顾客要靠努力跑得更快,拿到更高的折扣,自我创造、娱乐刺激也符合MeatPack的品牌形象。MeatPack的经验分享便是调动受众对刺激的渴望和挑战未知事物的兴趣,并设置有趣味性的利益诱惑,从而实现有效传播。再如,美国塔吉特与LBS购物平台Shopkick合作,消费者只需扫描商品,甚至走进商店,就能获得相应的点数,这些点数可用来置换塔吉特提供的礼品券、晚餐优惠券、Facebookcredits以及商品的特殊折扣。这种策划既能为顾客带来实际价值,又吸引顾客进店,实现“check-in”向“walk-in”的转变,由数据实现共赢。(五)社会化媒体中的新型关系传播2014年1月,全球最大的社会化媒体专业传播公司WeAreSocial研究显示,中国社交媒体用户数量占总人口比例的42%,用户平均每天花费在社交媒体上的时间为90分钟。社会化媒体中存在着比现实世界还要广泛的关系网,这对品牌传播来说是非常关键的阵地。“阿里浪”的微博商业化试水和Google的“共同代言”政策,两者都是创新举措,但结果并不令人满意。其原因在于忽略了社会化媒体中网民的主体性和能动性,忽略了用户产生内容。纵然,品牌需要从网民产生的大数据中挖掘契机和引爆点,但另一方面,品牌又需要积极引导,并体现出对用户的尊重,鼓励用户主动产生内容,让感兴趣的人都能够参与进来,并在品牌设置的引导策略中,进一步创作内容。多美滋品牌实施的“1000日抵抗力计划”,建立专门的网站和系统,提供权威专家和知识库,从妈妈怀孕第一天开始,记录走过的1000天,包括对营养、奶粉、宝宝等各种需求的专业问答、成长记录。多美滋利用数据挖掘和语义分析,获得妈妈们的知识需求、消费需求、服务需求,与多美滋是怎样的品牌关系、对多美滋的品牌认知等,甚至可以通过询问的问题、成长记录,知道她处在什么阶段、哪一天,从而更准确地提供服务和进行沟通。在1000天时间里,多美滋与妈妈们建立了和谐、信任关系。妈妈们主动寻求答案和服务,在得到满意的答复之后,才最有可能在社交网络上进行分享和传播,此过程是主动的,品牌只是提供了一个平台。新型的关系传播,意味着品牌首先要与消费者建立起稳固且信任的关系,打破双方的信息不对称,实现平等、互动;其次,才是消费者在自身社交网络关系网中的二次传播,通过大数据支持,寻找有相关需求或同样感兴趣的人,进行“共同代言”。四、利用大数据成果的品牌传播面临的问题从大数据初现端倪,到如今的广泛讨论和应用尝试,利用大数据进行品牌传播仍面临多方面的问题。首先,数据安全和隐私保护问题。这是长久未能解决的问题,在大数据时代显得更为紧迫。斯诺登曝光事件、携程“安全门”事件都提醒我们生活在一个并不安全的世界,隐私随时可能泄露。如果此问题得不到解决,品牌使用数据进行传播的合理性将遭到质疑。第二,数据的可靠性、可用性。跟传统的市场调研一样,大数据中也存在虚假、不可用的信息,如何有效地辨别信息,增强数据的可用性,切实关系到分析结果的准确与否和品牌传播战略的制定,如果出现失误,后果不堪设想。第三,大数据相关的人才和工具。数据是海量的,问题在于如何从中发掘有价值的数据,并对其进行分析和预测。虽然不少公司在大数据分析方面做得非常好,如IBM、SAS,也有很好的软件支持,如开源技术Hadoop和谷歌的MapRece,但这仍仅仅局限在少数实力雄厚的公司中,如何使一般的企业、品牌,甚至个人因数据而受益,才是大数据时代的精神体现。大数据时代的前景是美好的,但问题同样堪忧。作为大数据使用者的品牌,需要肩负起最直接的责任。在充分保护数据安全和个人隐私的前提下,对大数据进行应用。只有这样,才能使数据的生产者和使用者同时获益。(本文系山东省社会科学规划研究项目“体验经济时代:山东文化创意产业品牌传播研究”的成果)(智库专家、山东大学文学与新闻传播学院臧丽娜李明亮)