01中国行业大数据应用市场概况2011-2018年中国大数据市场规模发展大数据市场驱动力:来自于线下大数据市场( IT企业的大数 据应用及大数据平台业务市场)中IT巨头 和单一大数据业务的厂商开始行动,优 化产品和服务路线图。来自于线上大数据市场(互联网用户数 据市场,以及以互联网金融为主的线上 金融市场)的成熟度逐渐提高,以金融 和零售为核心的线上大数据应用走向成 熟,市场体量进一步扩大。企业着力培育数据资产,积极探讨数据,行业大数据多集聚、少融合。大数据产业集群逐渐形成,即针对企业 而言,以云端大数据集聚为前提条件, 以行业云服务为平台,共享企业间核心 竞争力。中国大数据市场发展历程及主要模式数据存储租用:通过易于使用的API, 用户方便地将各种数据对象放在云端, 然后再像使用水电一般按用量收费。租售信息业务:涉及到大数据产业链的数据整理与分析环节。提供加工后的数据 “ 半成品”。数据增值服务:精准营销等提升企业价值链业务。 小额信贷等数据衍生新兴业务。数据技术服务:为运营某一环节或业务问题提供方案。 针对企业系统需求,提供整体解决方案。 大数据即服务。行业大数据结构及应用状况中国大数据市场行业投资结构中,金融、通信、零售为前三大行业,投资占比分别为16.0%、15.6%和13.9%。政府、医疗、旅游投资比例分别为12.7%、9.0%和4.1%。六大行业累计占比71.3%。其他行业包括教育、制造、能源、媒体、互联网等,累计占比28.7%。重点行业大数据应用表现与成熟度中国大数据市场行业契合度及应用可能性分析中国大数据市场集中度与成熟度分析02重点行业大数据应用现状零售业线上与线下大数据资源的打通线下零售企业数据管理特点:通常辐射范围仅在周边10-15公 里,线下会员人数的增长空间十分有限。拥有大量的交易类数据, 但由于大量线下企业仍未建立完善的会员体系,数据难以进行定向追踪,关联性差。线上零售企业数据管理特点:领先线上零售企业由于可以辐射全国,早已获得了上亿的注册用户。但这类企业非结构化数据多, 需要挖掘才能得到价值。零售业大数据应用特点未来零售业大数据应用趋势将具有如下特点:如何进一步通过数据驱动经营和营销——各 零售企业会以会员为核心进行管理优化,通 过以人为中心的数据驱动,实现决策优化及 精准营销。行业会探索越来越多的大数据营销新模式— —各类零售企业会积极尝试新机会,如微店 等,寻找消费者偏好的新潮流。不断丰富外部数据源——在企业自身线下数 据采集能力不断提高的同时,与更丰富的外 部数据源合作将快速提升营销的精准度,包 括权威市场研究机构、领先互联网巨头等。“知己”的压力将进一步加大——当企业获 取翔实的用户数据后,为了突破自身实现快 速营销的瓶颈,将会倒逼企业利用移动销售 巡检、库存盘点等手段进一步完善自身的采 购、库存、员工行为等信息采集,从而实现 进一步“知己”,最终为实现全产业链的大 数据应用打下基础。旅游业大数据产业链的差异性线下旅游主管机构及景区、酒店等数据管理特点:本身不产生大数据,对数据不求所有,但求所用。数据来源分散 (横向涉及交通、环保、交通等, 纵向涉及国家及各地市旅游局)、 异构, 进行数据交换时缺乏业内统一标准。线上旅游平台数据管理特点:拥有大量交易、检索及用户行为数据,需要具备强大的语义分析能力才能实现精确的用户画像。旅游业大数据应用特点医疗行业大数据产业链结构我国医疗行业大数据建设方向“3521工程”,即建设国家级、省级和地市级三级卫生信息平台,加强公共卫生、医疗服务、新农合、基本药物制度、综合管理5项业务应用,建设健康档案和电子病历2个基础数据库和1个专用网络建设。当前全国有数十个个省份在搭建省级的信息化平台、 100多个城市在不同程度上搭建市级平台。以及区域医疗建设和医联体等,都会积累大量的数据。医疗行业大数据主要建设方向通信行业大数据产业链结构大数据在通信运营商中的应用趋势金融行业大数据产业链结构大数据对金融行业竞争格局的影响政府行业大数据产业链结构综合数据源共筑智慧城市03大数据行业化应用趋势与看点未来大数据的价值创造方向大数据行业化提供商磨砺的三大武器大数据行业化应用的机会与看点欢迎关注作者,您的关注是我们前进的最大动力。
中国行业大数据高速发展近年来,全球正大步迈向大数据新时代,数据的高效存储、处理和分析等需求也越来越旺盛。在此背景下,行业大数据得以高速发展,应用于各个领域,根据IDC发布的有关数据预测,2025年市场规模将达到19508亿元的高点。1、全球大数据储量呈爆发式增长随着信息通信技术的发展,各行各业信息系统采集、处理和积累的数据量越来越多,全球大数据储量呈爆炸式增长。根据国际数据公司(IDC)的监测数据显示,2013年全球大数据储量为4.3ZB(相当于47.24亿个1TB容量的移动硬盘),2014年和2015年全球大数据储量分别为6.6ZB和8.6ZB。近几年全球大数据储量的增速每年都保持在40%,2016年甚至达到了87.21%的增长率。2016年和2017年全球大数据储量分别为16.1ZB和21.6ZB,2018年全球大数据储量达到33.0ZB,2019年全球大数据储量达到41ZB。注:2015年储量增速为30.3%。2、中国数据产生量占全球数据产生量的23%根据IDC最新发布的统计数据,中国的数据产生量约占全球数据产生量的23%,美国的数据产生量占比约为21%,EMEA(欧洲、中东、非洲)的数据产生量占比约为30%,APJxC(日本和亚太)数据产生量占比约为18%,全球其他地区数据产生量占比约为8%。3、2019年中国行业大数据市场规模突破5000亿元随着互联网技术的快速发展,我国大数据产业也发展迅速。中国信息通信研究院结合对大数据相关企业的调研测算,发现我国大数据产业规模稳步增长。2016-2019年,短短四年时间,我国大数据产业市场规模由2840.8亿元增长到5386.2亿元,增速连续四年保持在20%以上。4、应用层规模将逐步增长随着大数据相关产品及应用的不断普及,未来五年,应用层规模将逐步增长。在技术层、数据源层以及衍生层的共同支撑下,应用市场规模份额将达到40%。其中,交易市场规模虽然占比最少,但是正是由于他的存在,使得数据的交易从法律上实现数据的合法化问题,以及实现了数据价值兑现。5、2025年中国大数据产业规模或将近2万亿元当前,我国正在加速从数据大国向着数据强国迈进。随着中国物联网等新技术的持续推进,到2025年,其产生的数据将超过美国。数据的快速产生和各项配套政策的落实推动我国大数据行业高速发展,预计未来我国行业大数据市场规模增速将维持在15%-25%之间,到2025年中国大数据产业规模将达19508亿元的高点。(文章来源:前瞻产业研究院)
随着大数据分析市场迅速扩大,包括主流客户,哪些技术是最需要的,哪些技术具有较大的增长潜力? 答案可以在《TechRada:大数据,2016年第一季度》报告中初见端倪,一份新的Forrester研究报告评估了22项技术在整个数据生命周期中的成熟度和轨迹。这些热门大数据技术都是关于实时、预测和集成洞察相关的技术,这正是客户现在想要的大数据技术。根据Forrester的分析,以下是我对十大最热门的大数据技术的一些分析:1. 预测分析:软件和/或硬件解决方案,允许公司通过分析大数据源来发现、评估、优化和部署预测模型,从而提高业务绩效或降低风险。2. NoSQL数据库:键值、文档和图形数据库。3. 搜索和知识发现:支持从驻留在多个源(如文件系统、数据库、流、api和其他平台和应用程序)中的大型非结构化和结构化数据存储库中自助提取信息和新见解的工具和技术。4. 流分析:可以过滤、聚合、丰富和分析来自多个不同的活动数据源和任何数据格式的高吞吐量数据的软件。5. 内存数据结构:通过在分布式计算机系统的动态随机访问内存(DRAM)、闪存或SSD上分布数据,提供低延迟访问和处理大量数据。6. 分布式文件存储:一种计算机网络,为了冗余和性能,数据通常以复制的方式存储在多个节点上。7. 数据虚拟化:一种从各种数据源(包括Hadoop等大数据源和分布式数据存储)实时、近实时地传递信息的技术。8. 数据集成:用于跨解决方案进行数据编排的工具,如Amazon Elastic MapRece (EMR)、Apache Hive、Apache Pig、Apache Spark、MapRece、Couchbase、Hadoop和MongoDB。9. 数据准备:软件可以减轻采购、成形、清理和共享各种杂乱的数据集的负担,从而加速数据在分析方面的有用性。10. 数据质量:使用分布式数据存储和数据库上的并行操作,对大型高速数据集进行数据清理和充实的产品。Forrester的TechRadar方法评估了每一项技术的潜在成功,而上述10项技术都预计将获得“重大成功”。此外,每种技术都根据其技术生态系统的发展水平处于特定的成熟阶段(从创建到衰落)。前8项技术被认为处于成长期,后2项技术被认为处于生存期。Forrester还估计,这项技术进入下一个阶段所需的时间,而预测分析是唯一一个拥有“>10年”称号的预测分析,预计将“在增长后期通过均衡阶段在很长一段时间内提供高业务价值”。“上述第2至第8项技术预计将在3至5年内进入下一个阶段,最后2项技术预计将在1至3年内从生存阶段进入增长阶段。最后,Forrester为每种技术提供了对其商业增值的评估,并根据不确定性进行了调整。这不仅基于潜在的影响,还基于来自实施和市场声誉的反馈和证据。Forrester说:“如果这项技术和它的生态系统处于发展的早期阶段,我们不得不假设它的潜在破坏和破坏要比一项更知名的技术更大。上述列表中的前两项技术被评为“高”业务增值技术,后两项被评为“中等”技术,其余都被评为“低”技术,这无疑是因为它们的新兴地位和不够成熟。为什么我要将两个仍处于生存阶段的数据准备和数据质量技术添加到最热门的技术列表中呢?在同一份报告中,Forrester还提供了2015年第四季度63家大数据供应商的调查数据:客户对下列每个功能的兴趣程度如何?(%回答“非常高”)1. 数据准备和发现52%2. 数据集成48%3. 高级分析46%4. 客户分析46%5. 数据安全38%6. 内存中计算37%而Forrester预测,几个独立的供应商数据准备将生存,它认为这是“一个重要的功能实现民主化的数据,“或者说,数据分析,让科学家们花更多的时间在建模和发现见解和允许更多的业务用户和数据挖掘有乐趣。除了确保决策基于可靠和准确的数据之外,数据质量还包括上表中的数据安全性。弗雷斯特预计,随着公司将数据认证过程正式化,数据质量将在未来几年取得重大成功。数据认证工作力求确保数据符合预期的质量标准;安全;以及支持业务决策、业务绩效和业务流程的法规遵从性。”“大数据”作为一个话题,已经成为主流受众的话题,这可能比之前任何一个技术流行语都要流行得多。这并没有帮助讨论这个无定形的术语,它被大众定义为“地球的神经系统”(参见我的咆哮),或者被技术观众定义为“Hadoop”。Forrester的报告帮助澄清了这个术语,将大数据定义为由22种技术组成的生态系统,每种技术都有其对企业和消费者的具体好处。大数据,特别是它的一个属性,大容量,最近引发了一个新的一般性的讨论话题,人工智能。大数据集的可用性是深度学习(AI的一个子集)受到关注的原因之一,从识别互联网猫到击败围棋冠军。反过来,人工智能可能会导致收集和分析数据的新工具的出现。弗雷斯特说:“除了更多的数据和更多的计算能力,我们现在已经扩展了分析技术,如深度学习和上下文语义服务,这使得人工智能成为解决更广泛的业务问题的理想工具。因此,Forrester发现有许多新公司在提供工具和服务,试图用模仿人类智能某些方面的机器来支持应用程序和流程。”预测是困难的,尤其是关于未来的预测,但它是一个(相对)安全的赌注,在模仿人类智能元素的竞赛中,由谷歌、Facebook、百度、亚马逊、IBM和微软领导的,都有非常雄厚的财力,将在不久的将来改变我们所说的“大数据”。那么,这些公司在购买哪些大数据技术呢?云计算,AWS非关系型分析系统是大数据技术投资的热门领域,认知软件也是如此。值得关注的15大数据技术提供大数据解决方案的技术供应商似乎数不胜数。目前特别流行的许多大数据解决方案都可以归为以下15类:1. Hadoop生态系统虽然Apache Hadoop可能不再像以前那样占据主导地位,但是如果不提到这个用于分布式处理大型数据集的开放源码框架,就几乎不可能谈论大数据。去年,Forrester预测,“在未来两年内,100%的大型企业将采用it (Hadoop和相关技术,如Spark)进行大数据分析。”多年来,Hadoop已经发展成为一个包含相关软件的完整生态系统,许多商业大数据解决方案都是基于Hadoop的。事实上,锡安市场研究公司(Zion Market Research)预测,到2022年,基于hadoop的产品和服务的市场将继续以50%的复合年增长率增长,届时其价值将达到871.4亿美元,高于2016年的76.9亿美元。关键的Hadoop供应商包括Cloudera、Hortonworks和MapR,以及领先的公共云都提供支持这项技术的服务。2. SPARKApache Spark是Hadoop生态系统的一部分,但它的使用已经变得如此广泛,值得拥有自己的类别。它是Hadoop内部处理大数据的引擎,比标准的Hadoop引擎MapRece快100倍。在2016年的AtScale大数据成熟度调查中,25%的受访者表示他们已经将Spark投入生产,33%的受访者表示已经有Spark项目在开发中。显然,人们对这项技术的兴趣相当大,而且还在增长,许多提供Hadoop产品的供应商也提供基于spark的产品。3.R另一个开源项目R是一种编程语言和软件环境,用于处理统计数据。它是数据科学家的宠儿,由R基金会管理,并在GPL 2许可下可用。许多流行的集成开发环境(ide),包括Eclipse和Visual Studio,都支持这种语言。一些对各种编程语言的流行程度进行排名的组织表示,R已经成为世界上最流行的语言之一。例如,IEEE称R是第五大最流行的编程语言,Tiobe和RedMonk都排在第14位。这一点很重要,因为这些图表顶部附近的编程语言通常是通用语言,可以用于许多不同类型的工作。对于一门几乎只用于大数据项目的语言来说,排名如此靠前说明了大数据的重要性以及该语言在其领域的重要性。4. 数据的湖泊为了更方便地访问它们庞大的数据存储,许多企业正在建立数据湖。这些大型数据存储库从许多不同的数据源收集数据,并将其以自然状态存储。这与数据仓库不同,数据仓库也从不同的数据源收集数据,但对数据进行处理并对其进行存储。在这种情况下,湖和仓库的比喻是相当准确的。如果数据像水一样,那么数据湖就是天然的、未经过滤的水体,而数据仓库更像是一堆放在架子上的水瓶。当企业希望存储数据,但还不确定如何使用数据时,数据湖尤其具有吸引力。许多物联网(IoT)数据可能属于这一类别,物联网趋势正在数据湖的增长中发挥作用。市场和市场预测,数据湖的收入将从2016年的25.3亿美元增长到2021年的88.1亿美元。5. NoSQL数据库传统的关系数据库管理系统(RDBMSes)将信息存储在结构化的、已定义的列和行中。开发人员和数据库管理员使用一种称为SQL的特殊语言来查询、操作和管理这些rdbms中的数据。NoSQL数据库专门存储非结构化数据并提供快速性能,尽管它们不提供与rdbms相同的一致性级别。流行的NoSQL数据库包括MongoDB、Redis、Cassandra、Couchbase等;即使是领先的RDBMS供应商,如Oracle和IBM,现在也提供NoSQL数据库。随着大数据趋势的发展,NoSQL数据库变得越来越流行。根据Allied Market Research的数据,到2020年,NoSQL市场的价值可能会达到42亿美元。但是,rdbms的市场仍然比NoSQL的市场大得多。MongoDB:MonboDB是几个著名的NoSQL数据库之一。6. 预测分析预测分析是大数据分析的一个子集,它试图基于历史数据预测未来的事件或行为。它利用数据挖掘、建模和机器学习技术来预测接下来会发生什么。它通常用于欺诈检测、信用评分、市场营销、财务和业务分析等目的。近年来,人工智能的进步极大地改善了预测分析解决方案的能力。因此,企业开始更多地投资于具有预测能力的大数据解决方案。包括微软、IBM、SAP、SAS、Statistica、RapidMiner、KNIME等在内的许多供应商都提供预测分析解决方案。锡安市场研究公司(Zion Market Research)表示,预测分析市场在2016年创造了34.9亿美元的收入,到2022年这个数字可能达到109.5亿美元。7. 内存数据库在任何计算机系统中,内存(也称为RAM)的速度都比长期存储快几个数量级。如果大数据分析解决方案能够处理存储在内存中的数据,而不是存储在硬盘上的数据,那么它的执行速度将大大提高。这正是内存数据库技术所做的。许多领先的企业软件供应商,包括SAP、Oracle、Microsoft和IBM,现在都提供内存数据库技术。此外,Teradata、Tableau、Volt DB和DataStax等几家规模较小的公司也提供内存数据库解决方案。MarketsandMarkets的研究估计,2016年内存技术的总销售额为27.2亿美元,到2021年可能会增长到65.8亿美元。8. 大数据安全解决方案由于大数据仓库对黑客和高级持续性威胁具有很大的吸引力,因此大数据安全成为企业越来越关注的问题。在AtScale的调查中,安全是与大数据相关的第二大增长最快的关注领域。根据IDG的报告,最流行的大数据安全解决方案包括身份和访问控制(59%的受访者使用)、数据加密(52%)和数据隔离(42%)。数十家供应商提供大数据安全解决方案,来自Hadoop生态系统的开源项目Apache Ranger也吸引了越来越多的关注。9. 大数据治理解决方案与安全概念密切相关的是治理概念。数据治理是一个广泛的主题,它包含与数据的可用性、可用性和完整性相关的所有流程。它为确保用于大数据分析的数据是准确和适当的提供了基础,并提供了审计跟踪,以便业务分析师或高管能够看到数据的来源。在NewVantage Partners的调查中,接受调查的《财富》1000名高管中有91.8%的人表示,公司治理对他们的大数据计划至关重要(52.5%)或重要(39.3%)。提供大数据治理工具的供应商包括Collibra、IBM、SAS、Informatica、Adaptive和SAP。10. 自助服务功能由于数据科学家和其他大数据专家供不应求,而且工资很高,许多组织都在寻找大数据分析工具,让企业用户能够自我服务,满足自己的需求。事实上,一份来自Research and Markets的报告估计,自助商业智能市场在2016年创造了36.1亿美元的收入,到2021年可能会增长到73.1亿美元。Gartner指出,“现代BI和分析平台在过去几年出现,以满足可访问性、敏捷性和更深层次的分析洞察力等新的组织需求,将市场从it主导、记录系统报告转向业务主导、敏捷分析(包括自助服务)。”为了利用这一趋势,许多商业智能和大数据分析供应商,如Tableau、微软、IBM、SAP、Splunk、Syncsort、SAS、TIBCO、Oracle等,都在他们的解决方案中增加了自助服务功能。时间会告诉我们,这些产品中是否有一种或所有产品是真正可供非专业人士使用的,以及它们是否能提供企业希望通过大数据计划实现的业务价值。11. 人工智能虽然人工智能(AI)的概念几乎和电脑一样存在了很久,但这项技术直到最近几年才真正可用。在许多方面,大数据趋势推动了人工智能的发展,尤其是在该学科的两个分支:机器学习和深度学习。机器学习的标准定义是,它是一种技术,使“计算机能够在没有明确编程的情况下学习”。在大数据分析中,机器学习技术允许系统查看历史数据、识别模式、构建模型和预测未来结果。它也与预测分析紧密相关。深度学习是一种机器学习技术,它依赖于人工神经网络,使用多层算法来分析数据。作为一个领域,它有很大的潜力允许分析工具识别图像和视频中的内容,然后进行相应的处理。专家表示,这一领域的大数据工具似乎即将迎来戏剧性的腾飞。IDC预测,“到2018年,75%的企业和ISV开发将至少在一个应用程序中包含认知/人工智能或机器学习功能,包括所有的商业分析工具。”拥有与大数据相关工具的领先人工智能供应商包括谷歌、IBM、微软(Microsoft)和亚马逊网络服务(Amazon Web Services),还有数十家小型初创公司正在开发人工智能技术(并被大型技术供应商收购)。12. 流分析随着组织对大数据分析解决方案的能力越来越熟悉,它们开始要求越来越快地访问洞察。对于这些企业来说,能够在创建数据时分析数据的流分析是一种圣杯。他们正在寻找能够接受来自多个不同来源的输入、处理它并立即返回洞见(或尽可能接近洞见)的解决方案。当涉及到新的物联网部署时,这是特别可取的,这有助于推动流媒体大数据分析的兴趣。一些供应商提供了承诺提供流分析功能的产品。它们包括IBM、Software AG、SAP、TIBCO、Oracle、DataTorrent、SQLstream、Cisco、Informatica等。MarketsandMarkets认为流媒体分析解决方案在2016年带来了30.8亿美元的收入,到2021年可能会增加到137亿美元。13. 边缘计算除了激发人们对流媒体分析的兴趣外,物联网趋势还引发了人们对边缘计算的兴趣。在某些方面,边缘计算是云计算的对立面。边缘计算系统不是将数据传输到集中的服务器进行分析,而是在离数据产生地非常近的地方进行分析——在网络的边缘。边缘计算系统的优点是它减少了必须通过网络传输的信息量,从而减少了网络流量和相关成本。它还减少了对数据中心或云计算设施的需求,为其他工作负载释放了容量,并消除了潜在的单点故障。虽然边缘计算市场,尤其是边缘计算分析市场仍在发展,但一些分析师和风险投资家已经开始把这项技术称为“下一个大事件”。14. 区块链区块链也是有远见的分析师和风险投资家的最爱,它是比特币数字货币背后的分布式数据库技术。区块链数据库的独特之处在于,一旦写入了数据,就不能在事后删除或更改。此外,它具有高度的安全性,这使得它成为银行、保险、医疗、零售等敏感行业大数据应用的最佳选择。区块链技术仍处于起步阶段,用例仍在开发中。然而,包括IBM、AWS、微软和多家初创公司在内的一些供应商已经推出了基于区块链技术的实验性或介绍性解决方案。大数据技术,区块链.区块链是分布式账本技术,为数据分析提供了巨大的潜力。15. 规范的分析许多分析师将大数据分析工具分为四大类。第一种是描述性分析,简单地描述发生了什么。下一种类型是diagnostic analytics,它更进一步,提供了事件发生的原因。第三种类型是前面深入讨论过的预测分析,它试图确定接下来会发生什么。这是目前市场上大多数分析工具所能达到的最复杂的程度。然而,还有第四种类型的分析甚至更加复杂,尽管现在很少有具有这些功能的产品可用。说明性分析为公司提供建议,告诉他们应该做什么才能得到想要的结果。例如,虽然预测分析可能会向公司发出特定产品线的市场将会下降的警告,但是规定性分析将分析针对这些市场变化采取的各种行动,并预测最有可能的结果。目前,很少有企业投资于规定分析,但许多分析师认为,在组织开始体验预测分析的好处后,这将是下一个大的投资领域。大数据技术的市场是多样化和不断变化的。但或许有一天,预测和规定性分析工具将为大数据的未来发展以及企业应该如何应对提供建议。
【试验工程师·公益学习营】第四期第2讲【试验工程师·公益学习营】第四期第2讲于2020年4月30日如期举行,本期讲师是海英人才获得者、瑞风协同技术带头人和首席技术官王可先生。他1986年毕业于北航计算机专业,在国产工业软件领域持续耕耘30多年,主持和参与了863计划、国家支撑计划、国家重点预研计划等十多项重大项目。曾获得省部级科技进步一等奖、二等奖、三等奖等共7项荣誉。重点研究方向包括:产品数据建模、协同设计、几何建模、三维CAD软件、综合保障和系统仿真。在其带领团队进行产品研发和技术规划的同时,还兼任全国标准化技术委员会委员、中国图学学会专业委员会委员。随着信息技术的不断进步,全世界每天都在产生海量的数据,在数据爆炸式增长的DT时代,各行各业对信息科技的依赖性不断增强,大数据也在支撑企业业务发展中发挥着越来越重要的作用,工业大数据的存储管理、分析挖掘能力将成为未来制造业企业的核心竞争能力。在本期课程中,王总重点分享了大数据技术概述、大数据存储管理技术及应用、大数据分析挖掘技术及应用和大数据技术应用案例四个方面内容。一、大数据技术概述对大数据的认识主要可以从三个方面来体现:1、大数据的概念 专业概念:Volume(巨量)、Variety(多样性)、Velocity(高速)、Value(价值) 通俗理解:海量数据+多种形式的非规则数据2、大数据来源及兴起 信息技术的普及 互联网的应用(移动应用、web2.0…) 对数据采集、处理的日益重视,数据驱动、数据资产、数据交付3、大数据的价值认识和未来发展 在电信、金融等领域,大数据技术应用带来更多商机 在制造业、交通、医疗等领域,大数据和人工智能技术的应用,逐步升华大数据的商业价值二、大数据存储管理技术大数据存储与传统存储存在一定区别。传统存储主要分为结构化数据和非结构化数据;大数据存储分为结构化数据、半结构化数据和非结构化数据。工业大数据存储方式通常有以下四种:1、设计数据的存储 架构数据:关系数据库 设计方案/产品数模:关系数据库+文档数据库(传统PLM升级)2、试验/仿真类数据存储 通道采集数据:列存储数据库 遥测采集数据:文档数据库/键-值类数据库 关联描述数据:XML/Jason,键-值类数据库3、制造类数据存储 工艺设计数据:结构化表+专用工艺文件,组合方式 质量检测数据:专用文档数据/键-值类数据库4、产品运维类数据存储 运维监测数据:表+图像/数据库+文档数据库 训练考核数据:组合方式工业大数据中心通常涵盖数据汇总、分析挖掘、知识应用和业务支持,其中数据汇总承担着把所有数据汇集起来进行融合的职责。全数据管理包括数据建模、数据收集、数据存储、数据治理和数据访问五个方面。工业大数据中心主要由院级/所级/外场级、数据结构+业务数据实体、数据实体三个方面的数据构成。工业大数据中心有四种组合存储方式,即关系数据库+文档系统、结构化数据、半结构化数据和非结构化数据。工业数据中心的定位是数据汇总和数据应用。三、大数据分析挖掘技术数据分析和数据挖掘区别在于,数据分析是统计类计算和推导类计算,而数据挖掘是未知规律发现、未知关联发现和类别(分类、识别类)的预测。数据挖掘基本分为预测类、剖析/解析类两大类,它的基本过程为:业务理解、数据理解、数据准备、建模训练、模型评估、模型发布和应用迭代。数据挖掘的主流算法分为剖析类方法和预测类方法两大类。其中,剖析类方法分为属性筛选、聚类分析和关联分析;预测类算法分为分析预测、回归预测和时序预测。数据挖掘的主流方法是神经网络方法,它是模拟生物的神经结构,是多层次、多因素的算法;它的特点是可以大规模并行处理、分布式处理,并拥有自学习能力。工业大数据的挖掘分析由大数据存储、数据仓库/算法模型组成。它的建模&训练分为:预处理-特征提取、建模/调参/训练、发布模型三部分。其挖掘应用有数据预处理、模型应用和发布结果。四、大数据应用案例分享最后,王总为大家介绍了两个大数据技术应用案例,即产品大数据中心建设的数据治理(业务数据资源的汇集管理和数据分析挖掘)和大型电子产品的状态评估(根据产品历史数据和现场采集数据进行快速状态评估)。
这既是国家级,又是世界级的研究所:中国与联合国将在杭州建立大数据研究所!据新华社报道,这是联合国机构首次与相关国家合作建立大数据研究所;这一项目选址杭州,在于充分发挥中国相关地方政府和企业在大数据领域的先发和引领优势,重点聚焦新技术、新产业、新业态,更好服务于经济和社会发展。大数据是数据集合,以容量大、类型多、存取速度快、应用价值高为主要特征;大数据的集合过程,就是对来源分散、数量巨大、格式多样的数据进行采集、存储,并进行关联分析,从而发现新知识、创造新价值、提升新能力。大数据时代,正是从“人人互联”逐步延展至“人机交互”“物物相联”,发展空间无限广大。杭州的大数据领域,具有先发和引领优势,大数据研发的底层土壤比较深厚。跨行业、跨领域的大数据资源开发,唤醒了越来越多“沉睡”的数据,累积了层出不穷的新数据。一方面,大数据服务于企业,海量的数据已经成为企业最具价值的财富,发展“数字经济”已成共识,大数据技术的应用场景也越来越广泛。比如电商领头羊阿里巴巴,从市场营销到平台设计,从市场预测到决策支持,从效能提升到运营管理,从云计算到人工智能,大数据发挥着重要的支撑作用。另一方面,大数据开始蔓延到社会的各个领域,让城市越来越智慧,协助解决交通、消防、警务、医疗、城管等群众最关切的“难点”“痛点”。对于大数据的研究,是世界性的必需和必然。如何加强关键技术研发、强化数据治理?如何参与并促进全球数据创新?“数字革命”如何推进?核心技术生态圈如何构建?随着可获取的数字资源的大爆炸,用作分析大数据的技术工具该如何发展、跟上步伐?5G时代的到来,将会给大数据带来怎样的变革?还有,如何保障大数据的安全?等等等等,很多既宏观又具体的论题需要深入研究。不研究,无进步;不应用,无发展。大数据是真正的人类好资源、国家好土壤。大数据的研究和发展,要追求范式的进步。在创建一个数据库的过程中,必须依照一定的准则,这些准则即为范式,从第一范式到第二范式再到第三范式、第四范式……范式的迭代就是创新与进步。至于数据应用和数据共享,则需要更大的突破。比如医疗领域的数据量巨大,数据类型复杂,包括临床数据、影像数据、病历数据、检验检查数据、诊疗费用数据等等,如果合理利用好这些数据,来支持临床决策、帮助远程治疗病人、促进药品研发等等,那一定是人类的健康福音。如今,大数据的研究与发展过程中,最大的“瓶颈”问题其实是大数据人才短缺的问题。相关数据显示,大数据领域正面临全球性的“人才荒”:去年,美国的大数据人才和高级分析专家缺口高达19万,其企业界与大数据相关的管理人才则缺口150万;而我国目前大数据人才仅46万,未来3到5年内大数据人才的缺口将高达156万!赢得人才,就赢得先机。所以,为了更好地研究大数据、更快地发展大数据,最为迫切的就是更多更好地吸引和培养大数据人才。
1、什么是大数据?大数据(big data),是指需要通过快速获取、处理、分析以从中提取价值的海量、多样化的交易数据、交互数据与传感数据,其规模往往达到了PB(1024TB)级。不同机构对大数据也有不同的定义。Gartner对大数据的定义:大数据是需要新处理模式才能具有更强决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。麦肯锡对大数据的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。移动信息化研究中心对大数据的定义:大数据是帮助企业利用海量数据资产,实时、精确地洞察未知逻辑领域的动态变化,并快速重塑业务流程、组织和行业的新兴数据管理技术。2、大数据产业链简介大数据产业:是指一切与大数据的产生与集聚、组织与管理、分析与发现、应用与服务相关的所有活动的集合。主要包括大数据硬件、大数据软件和大数据应用三大块。◆ 大数据提供者拥有数据的公司、个人、社会团体以及政府机构等,此类角色属于大数据产业链上的基础环节,包括数据源提供者、数据流通平台提供者和数据API提供者。目前我国大数据提供者包括政府管理部门、企业数据源提供商、互联网数据源提供商、物联网数据源提供商、移动通讯数据源提供商、提供数据流通平台服务和数据API服务的第三方数据服务企业、社会团体或者个人等。◆ 大数据产品提供者提供直接应用于大数据产品的企业,包括提供大数据应用软件、大数据基础软件、大数据相关硬件产品的企业。大数据应用软件产品提供者,包括提供整体解决方案的综合技术服务商,也包括大数据计算基础设施上(与云结合),从简单的文件存储的空间租售模式,逐步扩展到提供数据聚合平台,进而扩展到为客户提供分析业务的服务上。大数据基础软件提供商,此类企业搭建大数据平台、提供相关大数据技术支持、云存储、数据安全等,此类公司在某些垂直行业或者区域掌握大数据入口与出口,并能对一些数据进行采集、整合和汇集。这样的企业包括传统的IT企业、设备商以及新兴的云服务相关企业。大数据相关硬件产品提供商,此类企业提供大数据采集、接入、存储、传输、安全等硬件产品和设备。◆ 大数据服务提供者以大数据为核心资源,以大数据应用为主业开展商业经营的企业。包括大数据应用服务提供者、大数据分析服务提供者、大数据基础设施服务提供者。这类企业挖掘数据价值,处于大数据产业链的下游,它们通过发掘隐藏在大数据中的价值,不断推动大数据产业链中各个环节的发展和成熟。从某种角度上说正是此类公司创造了大数据的真正价值,具体包括:1)应用服务提供者,基于大数据技术,对外提供大数据服务。2)分析服务提供者,提供技术服务支持、技术(方法、商业等)咨询,或者为企业提供类似数据科学家的咨询服务。3)大数据基础设施服务提供者,提供面向大数据技术和服务提供者的培训、咨询、推广等的基础类通用类的服务提供者。3、中国数据爆炸式增长,大数据行业市场规模持续扩大当前网民增长进入了一个相对平稳的阶段,互联网在易转化人群和发达地区居民中的普及率已经达到较高水平,下一阶段中国互联网的普及将转向受教育程度较低的人群以及发展相对落后地区的居民。目前,随着移动互联网的繁荣发展,移动终端设备价格更低廉、接入互联网更方便等特性,为部分落后地区和难转化人群中的互联网推广工作提供了契机。截至2020年12月,我国网民规模达到9.89亿,较2020年3月增长8540万,互联网普及率达70.4%,较2020年3月提升5.9个百分点。其中手机网民规模达9.86亿,较2020年3月增长8885万,网民使用手机上网的比例达99.7%,较2020年3月提升0.4个百分点。注:2008年普及率为22.6%。当前,我国正在加速从数据大国向着数据强国迈进。国际数据公司IDC和数据存储公司希捷的一份报告显示,到2025年,随着中国物联网等新技术的持续推进,其产生的数据将超过美国。我国产生的数据量将从2019年的约9.4ZB增至2025年的48.6ZB,数据交易迎来战略机遇期。1zettabyte大约是1万亿gigabyte,这是当今常用的测量方法。与此同时,美国2019年的数据量约为8.6ZB。到2025年,这个数字预计将达到30.6ZB。在产业层面,我国大数据产业继续保持高速发展,大数据将深入渗透到各行各业。对于我国大数据产业的规模,目前各个研究机构均采取简介方法估算。根据国家工业信息安全发展研究中心通过对全国3000多家大数据相关企业的问卷调查和座谈形成的《2019中国大数据产业发展报告》,截至2019年,中国大数据产业规模超过8000亿元,预计到2020年底将超过万亿。目前,17个省市建立了大数据局,大数据安全维护机制日益完善。283所高校获批数据与大数据技术专业,全国有100多个大数据相关产业联盟成立,对大数据的发展起到推动作用。另外,大数据研发人员2019年超过8万人,研发投入超过550亿人民币。注:此处大数据统计口径:指以数据生产、采集、存储、加工、分析、服务为主的相关经济活动,包括数据资源建设、大数据软硬件产品的开发、销售和租赁活动,以及相关信息技术服务。4、中国大数据应用层将占据市场最大份额大数据产业包括一切与大数据的产生与集聚(数据源)、组织与管理(存储)、分析与发现(技术)、交易、应用与衍生产业相关的所有活动。大数据产业按照数据价值实现流程,包括数据源、大数据硬件支撑层、大数据技术层、大数据交易层、大数据应用层与大数据衍生层等六大层级,每一层都包含相应的IT硬件设施、软件技术与信息服务等。从发展趋势来看,随着大数据相关产品及应用的不断普及,未来应用层规模将逐步增长。在技术层、数据源层以及衍生层的共同支撑下,2020年中国大数据应用市场规模份额将达到40%。其中,交易市场规模虽然占比最少,但是正是由于它的存在,使得数据的交易从法律上实现数据的合法化问题,以及实现了数据价值兑现。5、中国大数据产业园区迅速发展助力数字经济发展国内大数据产业园是集聚大数据产业资源的重要载体。当前,不仅八个国家级大数据综合试验区(贵州、京津冀、辽宁、内蒙古、上海、河南、重庆、珠三角)的大数据产业园/基地快速发展,与这些试验区毗邻的省份,如安徽、湖北、四川、陕西、浙江、山东和江苏,也都加快推进“大数据产业园区/基地”建设,增强数字经济发展实力,加速产业转型升级。多数大数据产业园的发展思路:“基础设施建设-数汇集整合开放共享,企业上云-大数据融合应用-大数据产业链延伸”,即首先聚集数据资源,而后通过落地开放共享,协同效应带动开发,最终实现产业链的拓展和完善。中国的大数据产业园可以分为三类:北京、上海、广州和深圳的大数据产业园多脱胎于原先的各类软件园,具有良好的发展基础和优势;河南、重庆、大连、沈阳、内蒙古、贵州等国家大数据综合试验区,加速推进辖区内大数据产业园建设;部分东南和中部省份,顺应产业发展趋势,也积极布局大数据产业园,力促产业转型升级。6、政策推动产业细化,产业价值链向上下游延伸2015年,国家印发《关于促进大数据发展的行动纲要》,第一次将大数据上升到国家战略高度,提出了我国大数据的顶层设计。此后,随着大数据底层设施逐渐成熟,大数据分析开始结合具体行业,向下游垂直行业应用延伸。大数据开始由主题概念向业绩兑现转换。包括房地产、商贸零售、金融、汽车等传统行业开始深入布局大数据的行业应用。大数据源的战略性资源属性越来越普遍地得到各方认同,拥有数据源的企业在补齐分析和应用的技术,有望凭借数据链上游核心资源迎来快速发展。密集出台的大数据政策表明国家大力推动的意愿,环保部、国务院办公厅、国土资源部、国家林业局、煤工委、交通运输部、农业部的细则侧重指引垂直行业的落地。在政策的推动下,大数据加快了向各行业中的普及,并已全面从理论研究迈向实际应用,通过实际的经济效益实现,带动更多的行业开启大数据应用探索。具体从产业来看,互联网、金融、通信、安防等产业目前与大数据融合情况较好,交通、能源、工业等也在快速应用大数据。以工业为例,工业大数据产业规模到2019年有600多亿,到2020年,复合增长将达到50%以上,研发设计、生产、供应链、销售、运维等领域数据量越来越大。而医疗行业大数据在某些点上用得不错,但是要真正替代人,路径还比较长。7、数据外包将成为产业新机遇点数据外包是指大数据企业将价值链中原本由自身提提供的具有基础性的、共性的、非核心的IT业务和基于IT业务的流程剥离出来后,外包给专业服务提供商来完成,通过重组价值链、优化资源配置,降低成本,增强核心竞争力。数据外包有效地解决了数据孤岛以及清理和标记机器学习培训数据需要花费大量的时间和费用这两个问题,促成了“三赢”8、数据安全防护需求驱动制度和技术变革数据安全防护是通过采用各种技术和管理措施,使与数据采集、存储、分析处理等各类系统正常运行,从而确保各类数据的可用性、完整性和保密性。通过采用全面的数据发现能力、快速的安全事件响应,以及有效地云和大数据安全保护,来为用户提供合规的、弹性的、智能的、一站式数据安全解决方案。数据泄露事件持续不断。根据安全情报供应商Risk Based Security发布数据泄露情况显示,2018年公开披露的数据泄露事件达到6500起,涉及50亿条数据记录。其中三分之二来自商业组织,政府占13.9%,医疗行业占13.4%,教育业占6.5%。2019年全球数据泄露持续增长,超过100亿条,2020年前三季度更是达到360亿条,远超2019年全年。数据泄露给企业和用户等各方造成了高昂的成本,IBM Security 发布《2020年数据泄露成本报告》显示,揭示了数据泄露事件给企业造成的平均成本为386万美元,而其中员工账户遭受攻击是最昂贵的原因。超过5000万条记录被泄露的数据泄露事件的成本,从2019年的3.88亿美元跃升至3.92亿美元。泄露记录条数从40到5000万条不等的数据泄露事件的平均成本达到3.64亿美元,与2019年相比,该项成本增加了1900万美元。国内数据泄露方面,2020上半年重大数据泄露事件有:5亿新浪微博用户数据遭泄露、青岛市胶州中心医院6000余人个人信息被泄露、江苏南通5000多万条个人信息在“暗网”倒卖、建设银行员工贩卖5万多条客户信息等,具体如下:目前国内的数据安全市场也正处于成长期,随着数据泄露事件数量激增、性质不断恶化,以及企业数字化转型加速、业务上云,物联网、区块链等新技术的落地,国内对于数据安全相关领域和应用的重视程度正在不断增加。9、线下场景营销成为大数据应用新机遇随着“互联网流量红利”达到饱和,线上营销服务逐步由增量竞争转变为存量竞争。在此背景下,以新零售为代表的“线下场景营销”成为破局关键。根据新零售理论,线上销售将会与线下销售结合,同时会结合现代物流、大数据、云计算等技术。未来可能会有60%-80%的零售属于新零售。数据驱动是新零售的内核之一。数字营销供应商,通过收集线下场景数据,制作“人物画像”,精准刻画线下客户群体。进一步,通过与各类“广告主”合作,协助其将品牌精准推送给目标客户。(文章来源:前瞻产业研究院)
1 数据管理技术发展背景大数据的技术是数据管理技术的一种,数据管理系统有着悠久的发展历史,它是所有计算机应用的基础。谈到数据管理的软件,必须关注数据管理软件所依赖的硬件环境和它来解决的应用场景,我们可以通过图1来认识数据管理软件的位置。首先它是一种软件,处于底层硬件和上层应用之间,本质上是利用计算机硬件的存储和计算能力,对数据进行存储、管理、加工等操作,最终为了支持上层各类应用。图1 数据管理系统所处位置数据管理技术到现在至少有50年的发展历史,大概经历了几个发展阶段,具体见图2。第一个阶段是关系型数据模型的提出,为关系数据库发展奠定了理论基础;第二个阶段是Oracle和DB2等商业关系型数据库的兴起和发展壮大,开始了商业数据库产品在各行各业的应用,数据库也正式成为了继服务器、操作系统之外的第三个必须品;第三阶段由于业务场景的需要,数据库被分为面向业务的事务数据库和面向分析统计的分析数据库,两者之间的架构和建模方式也发生了变化,这是数据库技术的第一次分离;第四个阶段是数据库技术的分布式浪潮,最早是从数据分析端产生的,单机无法应对海量数据分析的需求,分布式水平扩展的需求提上日程,Hadoop、Spark和各类NoSQL都是为了应对这一需求而诞生,而分布式的技术也在2010年左右扩展到了事务数据库领域,主要为了应对越来越多的互联网业务。图2 数据管理系统的发展阶段数据管理系统处于硬件和应用之间的位置决定了它自身的技术演进主要依赖于底层硬件的发展和上层应用端的需求变化。在硬件端,从上世纪70年代开始,通用服务器的芯片、内存的发展就遵循摩尔定律,单机的性能越来越强,推动着数据库的处理能力不断增强,利用内存能力也是一大趋势。而进入2000年,芯片处理能力的增长赶不上业务和数据的增长,单机系统的瓶颈显露,导致数据管理系统向分布式架构转型。在应用端,业务的互联网化、在线化使得业务流量和访问频率呈指数级的增长,单机集中式架构处理遇到瓶颈,而移动互联网下动辄上千万的级的用户量,提出了海量数据分析的挑战,分布式架构正是为应对这些挑战而生。2 大数据技术发展历程大数据的应用和技术起源于互联网,首先是网站和网页的爆发式增长,搜索引擎公司最早感受到了海量数据带来的技术上的挑战,随后兴起的社交网络、视频网站、移动互联网的浪潮加剧了这一挑战。互联网企业发现新数据的增长量、多样性和对处理时效的要求是传统数据库、商业智能纵向扩展架构无法应对的。在此背景下,谷歌公司率先于2004年提出一套分布式数据处理的技术体系,即分布式文件系统谷歌文件系统(Google file system,GFS)、分布式计算系统MapRece和分布式数据库BigTable,以较低成本很好地解决了大数据面临的困境,奠定了大数据技术的基础。受谷歌公司论文启发,Apache Hadoop实现了自己的分布式文件系统HDFS、分布式计算系统MapRece和分布式数据库HBase,并将其进行开源,这是大数据技术开源生态体系的起点。2008年左右,雅虎最早在实际环境中搭建了大规模的Hadoop集群,这是Hadoop在互联网公司使用最早的案例,后来Hadoop生态的技术就渗透到了互联网、电信、金融乃至更多的行业。2009年UCBerkley大学的AMPLab研发出了Spark,经过5年的发展,正式替换了Hadoop生态中MapRece的地位,成为了新一代计算引擎,而2013年纯计算的Flink诞生,对Spark发出了挑战。2014年之后大数据技术生态的发展进入了平稳期。图3 大数据分析技术的发展历程经过10年左右的发展,大数据技术形成了以开源为主导、多种技术和架构并存的特点。从数据在信息系统中的生命周期看,大数据技术生态主要有5个发展方向,包括数据采集与传输、数据存储、资源调度、计算处理、查询与分析。在数据采集与传输领域渐渐形成了Sqoop、Flume、Kafka等一系列开源技术,兼顾离线和实时数据的采集和传输。在存储层,HDFS已经成为了大数据磁盘存储的事实标准,针对关系型以外的数据模型,开源社区形成了K-V(key-value)、列式、文档、图4类NoSQL数据库体系,HBase、Cassandra、MongoDB、Neo4j、Redis等数据库百花齐放。资源调度方面,Yarn独领风骚,Mesos有一定发展签里。计算处理引擎方面慢慢覆盖了离线批量计算、实时计算、流计算等场景,诞生了MapRece、Spark、Flink、Storm等计算框架。在数据查询和分析领域形成了丰富的SQL on Hadoop的解决方案,Hive、HAWQ、Impala、Presto、Drill等技术与传统的大规模并行处理(massively parallel processor,MPP)数据库竞争激烈。图4 大数据技术生态3 大数据技术发展趋势2014年以后,整体大数据的技术栈已经趋于稳定,由于云计算、人工智能等技术发展,还有芯片、内存端的变化,大数据技术也在发生相应的变化。总结来看主要有几点发展趋势:一是流式架构的更替,最早大数据生态没有办法统一批处理和流计算,只能采用Lambda架构,批的任务用批计算引擎,流式任务采用流计算引擎,比如批处理采用MapRece,流计算采用Storm。后来Spark试图从批的角度统一流处理和批处理,Spark Streaming采用了micro-bach的思路来处理流数据。近年来纯流架构的Flink异军突起,由于其架构设计合理,生态健康,近年来发展特别快。而Spark近期也抛弃了自身微批处理的架构,转向了纯流架构Structure Streaming,流计算的未来霸主还未见分晓。二是大数据技术的云化,一方面是公有云业务的成熟,众多大数据技术都被搬到了云上,其运维方式和运行环境都发生了较大变化,带来计算和存储资源更加的弹性变化,另一方面,私有部署的大数据技术也逐渐采用容器、虚拟化等技术,期望更加精细化地利用计算资源。三是异构计算的需求,近年来在通用CPU之外,GPU、FPGA、ASIC等芯片发展迅猛,不同芯片擅长不同的计算任务,例如GPU擅长图像数据的处理,大数据技术开始尝试根据不同任务来调用不同的芯片,提升数据处理的效率。四是兼容智能类的应用,随着深度学习的崛起,AI类的应用越来越广泛,大数据的技术栈在努力兼容AI的能力,通过一站式的能力来做数据分析和AI应用,这样开发者就能在一个工具站中编写SQL任务,调用机器学习和深度学习的算法来训练模型,完成各类数据分析的任务。4 总结与展望数据管理技术已经发展了50多年了,大数据技术是在数据管理技术的基础上,面向大规模数据分析的技术栈,它主要是分布式架构的设计思路,通过并行计算的方式来提升处理效率,同时具备了高扩展能力,根据业务需求随时扩展。经过15年左右的发展,大数据的技术栈逐渐成熟,然而近年来云计算、人工智能等技术的发展,还有底层芯片和内存端的变化,以及视频等应用的普及,都给大数据技术带来新的要求。未来大数据技术会沿着异构计算,批流融合,云化,兼容AI,内存计算等方向持续更迭,5G和物联网应用的成熟,又将带来海量视频和物联网数据,支持这些数据的处理也会是大数据技术未来发展的方向。来源: 中国信通院
中国特色社会主义进入新时代,实现中华民族伟大复兴的中国梦开启新征程。党中央决定实施国家大数据战略,吹响了加快发展数字经济、建设数字中国的号角。习近平总书记在十九届中共中央政治局第二次集体学习时的重要讲话中指出:“大数据是信息化发展的新阶段”,并做出了“推动大数据技术产业创新发展、构建以数据为关键要素的数字经济、运用大数据提升国家治理现代化水平、运用大数据促进保障和改善民生、切实保障国家数据安全”的战略部署,为我国构筑大数据时代国家综合竞争新优势指明了方向!今天,我拟回顾大数据的发端、发展和现状,研判大数据的未来趋势,简述我国大数据发展的态势,并汇报我对信息化新阶段和数字经济的认识,以及对我国发展大数据的若干思考和建议。一、大数据的发端与发展从文明之初的“结绳记事”,到文字发明后的“文以载道”,再到近现代科学的“数据建模”,数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而,直到以电子计算机为代表的现代信息技术出现后,为数据处理提供了自动的方法和手段,人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在经济社会发展方方面面的应用(即信息化),推动数据(信息)成为继物质、能源之后的又一种重要战略资源。“大数据”作为一种概念和思潮由计算领域发端,之后逐渐延伸到科学和商业领域。大多数学者认为,“大数据”这一概念最早公开出现于1998年,美国高性能计算公司SGI的首席科学家约翰.马西(JohnMashey)在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题,并用“BigData(大数据)”来描述这一挑战,在计算领域引发思考。2007年,数据库领域的先驱人物吉姆.格雷(JimGray)指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来第四范式——“数据探索”,后来同行学者将其总结为“数据密集型科学发现”,开启了从科研视角审视大数据的热潮。2012年,牛津大学教授维克托.迈尔-舍恩伯格(ViktorMayer-Schnberger)在其畅销著作《大数据时代(BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink)》中指出,数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”、“近似求解”和“只看关联不问因果”的新模式,从而引发商业应用领域对大数据方法的广泛思考与探讨。大数据于2012、2013年达到其宣传高潮,2014年后概念体系逐渐成形,对其认知亦趋于理性。大数据相关技术、产品、应用和标准不断发展,逐渐形成了包括数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统,并持续发展和不断完善,其发展热点呈现了从技术向应用、再向治理的逐渐迁移。经过多年来的发展和沉淀,人们对大数据已经形成基本共识:大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化。大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。大数据的价值本质上体现为:提供了一种人类认识复杂系统的新思维和新手段。就理论上而言,在足够小的时间和空间尺度上,对现实世界数字化,可以构造一个现实世界的数字虚拟映像,这个映像承载了现实世界的运行规律。在拥有充足的计算能力和高效的数据分析方法的前提下,对这个数字虚拟映像的深度分析,将有可能理解和发现现实复杂系统的运行行为、状态和规律。应该说大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段,这也是大数据引发经济社会变革最根本性的原因。二、大数据的现状与趋势全球范围内,研究发展大数据技术、运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。下面将从应用、治理和技术三个方面对当前大数据的现状与趋势进行梳理。一是已有众多成功的大数据应用,但就其效果和深度而言,当前大数据应用尚处于初级阶段,根据大数据分析预测未来、指导实践的深层次应用将成为发展重点。按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。第一层,描述性分析应用,是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程。如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据,再以统计图表等可视化形式,将数据蕴含的信息推送给不同岗位的业务人员和管理者,帮助其更好地了解企业现状,进而做出判断和决策。第二层,预测性分析应用,是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员DavidRothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个,准确率达87.5%。第三层,指导性分析应用,是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化。如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。当前,在大数据应用的实践中,描述性、预测性分析应用多,决策指导性等更深层次分析应用偏少。一般而言,人们做出决策的流程通常包括:认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。例如:第一层次的描述性分析中,计算机仅负责将与现状相关的信息和知识展现给人类专家,而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深,计算机承担的任务越多、越复杂,效率提升也越大,价值也越大。然而,随着研究应用的不断深入,人们逐渐意识到前期在大数据分析应用中大放异彩的深度神经网络尚存在基础理论不完善、模型不具可解释性、鲁棒性较差等问题。因此,虽然应用层次最深的决策指导性应用,当前已在人机博弈等非关键性领域取得较好应用效果,但是,在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高,且与人类生命、财产、发展和安全紧密关联的领域,要真正获得有效应用,仍面临一系列待解决的重大基础理论和核心技术挑战。在此之前,人们还不敢、也不能放手将更多的任务交由计算机大数据分析系统来完成。这也意味着,虽然已有很多成功的大数据应用案例,但还远未达到我们的预期,大数据应用仍处于初级阶段。未来,随着应用领域的拓展、技术的提升、数据共享开放机制的完善,以及产业生态的成熟,具有更大潜在价值的预测性和指导性应用将是发展的重点。二是大数据治理体系远未形成,特别是隐私保护、数据安全与数据共享利用效率之间尚存在明显矛盾,成为制约大数据发展的重要短板,各界已经意识到构建大数据治理体系的重要意义,相关的研究与实践将持续加强。随着大数据作为战略资源的地位日益凸显,人们越来越强烈地意识到制约大数据发展最大的短板之一就是:数据治理体系远未形成,如数据资产地位的确立尚未达成共识,数据的确权、流通和管控面临多重挑战;数据壁垒广泛存在,阻碍了数据的共享和开放;法律法规发展滞后,导致大数据应用存在安全与隐私风险;等等。如此种种因素,制约了数据资源中所蕴含价值的挖掘与转化。其中,隐私、安全与共享利用之间的矛盾问题尤为凸显。一方面,数据共享开放的需求十分迫切。近年来人工智能应用取得的重要进展,主要源于对海量、高质量数据资源的分析和挖掘。而对于单一组织机构而言,往往靠自身的积累难以聚集足够的高质量数据。另外,大数据应用的威力,在很多情况下源于对多源数据的综合融合和深度分析,从而获得从不同角度观察、认知事物的全方位视图。而单个系统、组织的数据往往仅包含事物某个片面、局部的信息,因此,只有通过共享开放和数据跨域流通才能建立信息完整的数据集。然而,另一方面,数据的无序流通与共享,又可能导致隐私保护和数据安全方面的重大风险,必须对其加以规范和限制。例如,鉴于互联网公司频发的、由于对个人数据的不正当使用而导致的隐私安全问题,欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》(GeneralDataProtectionRegulation,GDPR),并于2018年5月25日正式生效。《条例》生效后,Facebook和谷歌等互联网企业即被指控强迫用户同意共享个人数据而面临巨额罚款,并被推上舆论的风口浪尖。2020年1月1日,被称为美国“最严厉、最全面的个人隐私保护法案”——《加利福利亚消费者隐私法案》(CCPA)将正式生效。CCPA规定了新的消费者权利,旨在加强消费者隐私权和数据安全保护,涉及企业收集的个人信息的访问、删除和共享,企业负有保护个人信息的责任,消费者控制并拥有其个人信息,这是美国目前最具典型意义的州隐私立法,提高了美国保护隐私的标准。在这种情况下,过去利用互联网平台中心化搜集用户数据,实现平台化的精准营销的这一典型互联网商业模式将面临重大挑战。我国在个人信息保护方面也开展了较长时间的工作,针对互联网环境下的个人信息保护,制定了《全国人民代表大会常务委员会关于加强网络信息保护的决定》《电信和互联网用户个人信息保护规定》《全国人民代表大会常务委员会关于维护互联网安全的决定》和《消费者权益保护法》等相关法律文件。特别是2016年11月7日,全国人大常委会通过的《中华人民共和国网络安全法》中明确了对个人信息收集、使用及保护的要求,并规定了个人对其个人信息进行更正或删除的权利。2019年,中央网信办发布了《数据安全管理办法(征求意见稿)》,向社会公开征求意见,明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范。相信这些法律法规将在促进数据的合规使用、保障个人隐私和数据安全等方面发挥不可或缺的重要作用。然而,从体系化、确保一致性、避免碎片化考虑,制订专门的数据安全法、个人信息保护法是必要的。另一方面,我们也应看到,这些法律法规也将在客观上不可避免地增加数据流通的成本、降低数据综合利用的效率。如何兼顾发展和安全,平衡效率和风险,在保障安全的前提下,不因噎废食,不对大数据价值的挖掘利用造成过分的负面影响,是当前全世界在数据治理中面临的共同课题。近年来,围绕大数据治理这一主题及其相关问题,国际上已有不少成功的实践和研究探索工作,诸如在国家层面推出的促进数据共享开放、保障数据安全和保护公民隐私的相关政策和法规,针对企业机构的数据管理能力评估和改善,面向数据质量保证的方法与技术,促进数据互操作的技术规范和标准等。然而,考察当前的研究和实践,仍存在三个方面的主要问题。一是大数据治理概念的使用相对“狭义”,研究和实践大都以企业组织为对象,仅从个体组织的角度考虑大数据治理的相关问题,这与大数据跨界流动的迫切需求存在矛盾,限制了大数据价值的发挥。二是现有研究实践对大数据治理内涵的理解尚未形成共识,不同研究者从流程设计、信息治理和数据管理应用等不同视角,给出了大数据治理的不同定义,共识的形成尚有待时日!三是大数据治理相关的研究实践多条线索并行,关联性、完整性和一致性不足。诸如,国家层面的政策法规和法律制定等较少被纳入大数据治理的视角;数据作为一种资产的地位仍未通过法律法规予以确立,难以进行有效的管理和应用;大数据管理已有不少可用技术与产品,但还缺乏完善的多层级管理体制和高效管理机制;如何有机结合技术与标准,建立良好的大数据共享与开放环境仍需要进一步探索。缺少系统化设计,仅仅在已有的相关体系上进行扩展和延伸,可能会导致数据治理的“碎片化”和一致性缺失等等。当前,各界已经普遍认识到了大数据治理的重要意义,大数据治理体系建设已经成为大数据发展重点,但仍处在发展的雏形阶段,推进大数据治理体系建设将是未来较长一段时间内需要持续努力的方向。三是数据规模高速增长,现有技术体系难以满足大数据应用的需求,大数据理论与技术远未成熟,未来信息技术体系将需要颠覆式创新和变革。近年来,数据规模呈几何级数高速成长。据国际信息技术咨询企业国际数据公司(IDC)的报告,2020年全球数据存储量将达到44ZB(1021),到2030年将达到2500ZB。当前,需要处理的数据量已经大大超过处理能力的上限,从而导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态,这些数据被称为“暗数据”。据国际商业机器公司(IBM)的研究报告估计,大多数企业仅对其所有数据的1%进行了分析应用。近年来,大数据获取、存储、管理、处理、分析等相关的技术已有显著进展,但是大数据技术体系尚不完善,大数据基础理论的研究仍处于萌芽期。首先,大数据定义虽已达成初步共识,但许多本质问题仍存在争议,例如:数据驱动与规则驱动的对立统一、“关联”与“因果”的辩证关系、“全数据”的时空相对性、分析模型的可解释性与鲁棒性等;其次,针对特定数据集和特定问题域已有不少专用解决方案,是否有可能形成“通用”或“领域通用”的统一技术体系,仍有待未来的技术发展给出答案;其三,应用超前于理论和技术发展,数据分析的结论往往缺乏坚实的理论基础,对这些结论的使用仍需保持谨慎态度。推演信息技术的未来发展趋势,较长时期内仍将保持渐进式发展态势,随技术发展带来的数据处理能力的提升将远远落后于按指数增长模式快速递增的数据体量,数据处理能力与数据资源规模之间的“剪刀差”将随时间持续扩大,大数据现象将长期存在。在此背景下,大数据现象倒逼技术变革,将使得信息技术体系进行一次重构,这也带来了颠覆式发展的机遇。例如,计算机体系结构以数据为中心的宏观走向和存算一体的微观走向,软件定义方法论的广泛采用,云边端融合的新型计算模式等;网络通信向宽带、移动、泛在发展,海量数据的快速传输和汇聚带来的网络的Pb/s级带宽需求,千亿级设备联网带来的Gb/s级高密度泛在移动接入需求;大数据的时空复杂度亟需在表示、组织、处理和分析等方面的基础性原理性突破,高性能、高时效、高吞吐等极端化需求呼唤基础器件的创新和变革;软硬件开源开放趋势导致产业发展生态的重构;等等。三、大数据与数字经济大数据是信息技术发展的必然产物,更是信息化进程的新阶段,其发展推动了数字经济的形成与繁荣。信息化已经历了两次高速发展的浪潮,始于上世纪80年代,随个人计算机大规模普及应用所带来的以单机应用为主要特征的数字化(信息化1.0),及始于上世纪90年代中期,随互联网大规模商用进程所推动的以联网应用为主要特征的网络化(信息化2.0)。当前,我们正在进入以数据的深度挖掘和融合应用为主要特征的智能化阶段(信息化3.0)。在“人机物”三元融合的大背景下,以“万物均需互联、一切皆可编程”为目标,数字化、网络化和智能化呈融合发展新态势。在信息化发展历程中,数字化、网络化和智能化是三条并行不悖的主线。数字化奠定基础,实现数据资源的获取和积累;网络化构建平台,促进数据资源的流通和汇聚;智能化展现能力,通过多源数据的融合分析呈现信息应用的类人智能,帮助人类更好地认知复杂事物和解决问题。信息化新阶段开启的另一个重要表征是信息技术开始从助力经济发展的辅助工具向引领经济发展的核心引擎转变,进而催生一种新的经济范式—“数字经济”。数字经济是指以数字化知识和信息为关键生产要素、以现代信息网络为重要载体、以信息通信技术的有效使用为效率提升和经济结构优化的重要推动力的一系列经济活动,是以新一代信息技术和产业为依托,继农业经济、工业经济之后的新经济形态。从构成上看,农业经济属单层结构,以农业为主,配合以其他行业,以人力、畜力和自然力为动力,使用手工工具,以家庭为单位自给自足,社会分工不明显,行业间相对独立;工业经济是两层结构,即提供能源动力和行业制造设备的装备制造产业,以及工业化后的各行各业,并形成分工合作的工业体系。数字经济则可分为三个层次:提供核心动能的信息技术及其装备产业、深度信息化的各行各业以及跨行业数据融合应用的数据增值产业。当前,数字经济正处于成型展开期,将进入信息技术引领经济发展的爆发期、黄金期!从另一个视角来看,如果说过去20多年,互联网高速发展引发了一场社会经济的“革命”,深刻地改变了人类社会,现在可以看到,互联网革命的上半场已经结束。上半场的主要特征是“2C”(面向最终用户),主战场是面向个人提供社交、购物、教育、娱乐等服务,可称为“消费互联网”。而互联网革命的下半场正在开启,其主要特征将是“2B”(面向组织机构),重点在于促进供给侧的深刻变革,互联网应用将面向各行业,特别是制造业,以优化资源配置、提质增效为目标,构建以工业物联为基础和工业大数据为要素的工业互联网。作为互联网发展的新领域,工业互联网是新一代信息技术与生产技术深度融合的产物,它通过人、机、物的深度互联,全要素、全产业链、全价值链的全面链接,推动形成新的工业生产制造和服务体系。当前,新一轮工业革命正在拉开帷幕,在全球范围内不断颠覆传统制造模式、生产组织方式和产业形态,而我国正处于由数量和规模扩张向质量和效益提升转变的关键期,需要抓住历史机遇期,促进新旧动能转换,形成竞争新优势。我国是制造大国和互联网大国,推动工业互联网创新发展具备丰富的应用场景、广阔的市场空间和巨大的推进动力。数字经济未来发展呈现如下趋势:一是以互联网为核心的新一代信息技术正逐步演化为人类社会经济活动的基础设施,并将对原有的物理基础设施完成深度信息化改造和软件定义,在其支撑下,人类极大地突破了沟通和协作的时空约束,推动平台经济、共享经济等新经济模式快速发展。以平台经济中的零售平台为例,百货大楼在前互联网时代对促进零售业发展起到了重要作用。而从上世纪九十年代中后期开始,伴随互联网的普及,电子商务平台逐渐兴起。与要求供需方必须在同一时空达成交易的百货大楼不同,电子商务平台依托互联网,将遍布全球各个角落的消费者、供货方连接在一起,并聚合物流、支付、信用管理等配套服务,突破了时空约束,大幅减少了中间环节,降低了交易成本,提高了交易效率。按阿里研究院的报告,过去十年间,中国电子商务规模增长了10倍,并呈加速发展趋势。二是各行业工业互联网的构建将促进各种业态围绕信息化主线深度协作、融合,在完成自身提升变革的同时,不断催生新的业态,并使一些传统业态走向消亡。如随着无人驾驶汽车技术的成熟和应用,传统出租车业态将可能面临消亡。其他很多重复性的、对创新创意要求不高的传统行业也将退出历史舞台。2017年10月,《纽约客》杂志报道了剑桥大学两名研究者对未来365种职业被信息技术淘汰的可能性分析,其中电话推销员、打字员、会计等职业高居榜首。三是在信息化理念和政务大数据的支撑下,政府的综合管理服务能力和政务服务的便捷性持续提升,公众积极参与社会治理,形成共策共商共治的良好生态。四是信息技术体系将完成蜕变升华式的重构,释放出远超当前的技术能力,从而使蕴含在大数据中的巨大价值得以充分释放,带来数字经济的爆发式增长。四、我国大数据发展的态势党的十八届五中全会将大数据上升为国家战略。回顾过去几年的发展,我国大数据发展可总结为:“进步长足,基础渐厚;喧嚣已逝,理性回归;成果丰硕,短板仍在;势头强劲,前景光明”。作为人口大国和制造大国,我国数据产生能力巨大,大数据资源极为丰富。随着数字中国建设的推进,各行业的数据资源采集、应用能力不断提升,将会导致更快更多的数据积累。预计到2020年,我国数据总量有望达到8000EB(1018),占全球数据总量的21%,将成为名列前茅的数据资源大国和全球数据中心。我国互联网大数据领域发展态势良好,市场化程度较高,一些互联网公司建成了具有国际领先水平的大数据存储与处理平台,并在移动支付、网络征信、电子商务等应用领域取得国际先进甚至领先的重要进展。然而,大数据与实体经济融合还远不够,行业大数据应用的广度和深度明显不足,生态系统亟待形成和发展。随着政务信息化的不断发展,各级政府积累了大量与公众生产生活息息相关的信息系统和数据,并成为最具价值数据的保有者。如何盘活这些数据,更好地支撑政府决策和便民服务,进而引领促进大数据事业发展,是事关全局的关键。2015年9月,国务院发布《促进大数据发展行动纲要》,其中重要任务之一就是“加快政府数据开放共享,推动资源整合,提升治理能力”,并明确了时间节点,2017年跨部门数据资源共享共用格局基本形成;2018年建成政府主导的数据共享开放平台,打通政府部门、企事业单位间的数据壁垒,并在部分领域开展应用试点;2020年实现政府数据集的普遍开放。随后,国务院和国务院办公厅又陆续印发了系列文件,推进政务信息资源共享管理、政务信息系统整合共享、互联网+政务服务试点、政务服务一网一门一次改革等,推进跨层级、跨地域、跨系统、跨部门、跨业务的政务信息系统整合、互联、协同和数据共享,用政务大数据支撑“放管服”改革落地,建设数字政府和智慧政府。目前,我国政务领域的数据开放共享已取得了重要进展和明显效果。例如:浙江省推出的“最多跑一次”改革,是推进供给侧结构性改革、落实“放管服”改革、优化营商环境的重要举措。以衢州市不动产交易为例,通过设立综合窗口再造业务流程,群众由原来跑国土、住建、税务3个窗口8次提交3套材料,变为只跑综合窗口1个窗口1次提交1套材料,效率大幅提高。据有关统计,截至2019年上半年,我国已有82个省级、副省级和地级政府上线了数据开放平台,涉及41.93%的省级行政区、66.67%的副省级城市和18.55%的地级城市。我国已经具备加快技术创新的良好基础。在科研投入方面,前期通过国家科技计划在大规模集群计算、服务器、处理器芯片、基础软件等方面系统性部署了研发任务,成绩斐然。“十三五”期间在国家重点研发计划中实施了“云计算和大数据”重点专项。当前科技创新2030大数据重大项目正在紧锣密鼓地筹划、部署中。我国在大数据内存计算、协处理芯片、分析方法等方面突破了一些关键技术,特别是打破“信息孤岛”的数据互操作技术和互联网大数据应用技术已处于国际领先水平;在大数据存储、处理方面,研发了一些重要产品,有效地支撑了大数据应用;国内互联网公司推出的大数据平台和服务,处理能力跻身世界前列。国家大数据战略实施以来,地方政府纷纷响应联动、积极谋划布局。国家发改委组织建设11个国家大数据工程实验室,为大数据领域相关技术创新提供支撑和服务。发改委、工信部、中央网信办联合批复贵州、上海、京津冀、珠三角等8个综合试验区,正在加快建设。各地方政府纷纷出台促进大数据发展的指导政策、发展方案、专项政策和规章制度等,使大数据发展呈蓬勃之势。然而,我们也必须清醒地认识到我国在大数据方面仍存在一系列亟待补上的短板。一是大数据治理体系尚待构建。首先,法律法规滞后。目前,我国尚无真正意义上的数据管理法规,只在少数相关法律条文中有涉及到数据管理、数据安全等规范的内容,难以满足快速增长的数据管理需求。其次,共享开放程度低。推动数据资源共享开放,将有利于打通不同部门和系统的壁垒,促进数据流转,形成覆盖全面的大数据资源,为大数据分析应用奠定基础。我国政府机构和公共部门已经掌握巨大的数据资源,但存在“不愿”、“不敢”和“不会”共享开放的问题。例如:在“最多跑一次”改革中,由于技术人员缺乏,政务业务流程优化不足,涉及部门多、链条长,长期以来多头管理、各自为政等问题,导致很多地区、乡镇的综合性窗口难建立、数据难流动、业务系统难协调。同时,由于办事流程不规范,网上办事大厅指南五花八门,以至于同一个县市办理同一项事件,需要的材料、需要集成的数据在各乡镇的政务审批系统里却各有不同,造成群众不能一次性获得准确的相关信息而需要“跑多次”。当前,我国的政务数据共享开放进程,相对于《行动纲要》明确的时间节点,已明显落后,且数据质量堪忧。不少地方的政务数据开放平台,仍然存在标准不统一、数据不完整、不好用甚至不可用等问题。政务数据共享开放意义重大,仍需要坚持不懈地持续推进。此外,在数据共享与开放的实施过程中,各地还存在片面强调数据物理集中的“一刀切”现象,对已有信息化建设投资保护不足,造成新的浪费。第三,安全隐患增多。近年来,数据安全和隐私数据泄露事件频发,凸显大数据发展面临的严峻挑战。在大数据环境下,数据在采集、存储、跨境跨系统流转、利用、交易和销毁等环节的全生命周期过程中,所有权与管理权分离,真假难辨,多系统、多环节的信息隐性留存,导致数据跨境跨系统流转追踪难、控制难,数据确权和可信销毁也更加困难。二是核心技术薄弱。基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题,大数据时代需避免此问题在新一轮发展中再次出现。近年来,我国在大数据应用领域取得较大进展,但是基础理论、核心器件和算法、软件等层面,较之美国等技术发达国家仍明显落后。在大数据管理、处理系统与工具方面,我国主要依赖国外开源社区的开源软件,然而,由于我国对国际开源社区的影响力较弱,导致对大数据技术生态缺乏自主可控能力,成为制约我国大数据产业发展和国际化运营的重大隐患。三是融合应用有待深化。我国大数据与实体经济融合不够深入,主要问题表现在:基础设施配置不到位,数据采集难度大;缺乏有效引导与支撑,实体经济数字化转型缓慢;缺乏自主可控的数据互联共享平台等。当前,工业互联网成为互联网发展的新领域,然而仍存在不少问题:政府热、企业冷,政府时有“项目式”、“运动式”推进,而企业由于没看到直接、快捷的好处,接受度低;设备设施的数字化率和联网率偏低;大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统,而众多中小企业数字化转型的动力和能力严重不足;国外厂商的设备在我国具有垄断地位,这些企业纷纷推出相应的工业互联网平台,抢占工业领域的大数据基础服务市场。五、若干思考和建议最后,我想基于自己在大数据领域的研究实践,汇报若干思考和建议。一家之见,仅供参考。(一)大力发展行业大数据应用当前,我国互联网领域的大数据应用市场化程度高、发展较好,但行业应用广度和深度明显不足,生态系统亟待形成和发展。事实上,与实体经济紧密结合的行业大数据应用蕴含了更加巨大的发展潜力和价值。以制造业为例,麦肯锡研究报告称:制造企业在利用大数据技术后,其生产成本能够降低10%—15%。而大数据技术对制造业的影响远非成本这一个方面。利用源于产品生命周期中市场、设计、制造、服务、再利用等各个环节数据,制造业企业可以更加精细、个性化地了解客户需求;建立更加精益化、柔性化、智能化的生产系统;创造包括销售产品、服务、价值等多样的商业模式;并实现从应激式到预防式的工业系统运转管理模式的转变。制造业是国民经济不可或缺的一环,也是一个国家竞争力背后的强大力量支撑。我国制造业位居世界第一,却大而不强。企业创新能力不足,高端和高价值产品欠缺,在国际产业分工中处于中低端,大力推动制造业大数据应用的发展,对产业升级转型至关重要。当前,我国不同行业领域正在积极推进数字化转型、网络化重构、智能化提升,推动行业大数据应用,也是推进数字中国建设的重要途径和基础。(二)建立系统全面的大数据治理体系大数据是数字经济的关键要素,强大的信息技术产业和全面深度信息化赋能的传统行业无疑是数字经济的基础!大数据治理须从营造大数据产业发展环境的视角予以全面、系统化考虑!我以为,在一国之范围内,大数据治理体系建设涉及国家、行业和组织三个层次,至少包含数据的资产地位确立、管理体制机制、共享与开放、安全与隐私保护等四方面内容,需要从制度法规、标准规范、应用实践和支撑技术等视角多管齐下,提供支撑。在国家层次,重点是要在法律法规层面明确数据的资产地位,奠定数据确权、流通、交易和保护的基础,制定促进数据共享开放的政策法规和标准规范,促进政务数据和行业数据的融合应用,并且出台数据安全与隐私保护的法律法规,保障国家、组织和个人的数据安全。在行业层次,重点是要在国家相关法律法规框架下,充分考虑本行业中企业的共同利益与长效发展,建立规范行业数据管理的组织机构和数据管控制度,制定行业内数据共享与开放的规则和技术规范,促进行业内数据的共享交换和融合应用。在组织层次,重点是要提升企业对数据全生命期的管理能力,促进企业内部和企业间的数据流通,提升数据变现能力,保障企业自身的数据安全及客户的数据安全和隐私信息。在数据治理体系建设中,数据共享开放是大数据资源建设的前提,在现阶段重要性尤其突出。在平衡数据共享开放和隐私保护、数据安全的关系时,我以为,还是需要强调应用先行、安全并重的原则。数据共享开放不应被孤立看待,可能需要综合考虑数据的使用场合及数据主体的权益。如,数据集中管理可能带来保管上的安全问题,然而数据融合才能产生价值,一定程度的集中是趋势所在,也更利于建立更强大可靠的保护机制;多源数据的融合可能导致信息泄露,然而在确知风险前,是否需要因其“可能性”而拒绝技术的应用?数据脱敏仍然可能存在隐私泄露的风险,是否允许个体在知情前提下“用隐私换方便”、“用隐私换治疗换健康”?是否允许使用符合当前“标准”、但无法确保未来一定不出现信息泄露的脱敏方法,并对相关应用予以免责?当然,加强兼顾隐私保护、数据安全和数据流动利用的新技术研发,也非常必要。当前,如安全多方计算、同态加密、联邦学习等技术研发,希望允许拥有数据的各方在不向其他组织或个人公开数据中所含敏感信息的情况下,实现数据的融合利用。虽然这些技术尚处于发展的初级阶段,但因其广阔的应用前景而受到普遍关注。另外,打破信息孤岛、盘活数据存量是当前一项紧迫的任务,而在此过程中,不宜过分强调物理集中,而应将逻辑互联作为打通信息“孤岛”的手段,逻辑互联先行,物理集中跟进。在数据共享体系建设中,需要在一定层级上构建物理分散、逻辑统一、管控可信、标准一致的政务信息资源共享交换体系,在不改变现有信息系统与数据资源的所有权及管理格局的前提下,明晰责权利,即:数据应用部门提需求、数据拥有部门做响应、交换平台管理部门保流转。同时,集约化的政务云建设正成为政府、企业建设新的信息系统的首选方案,如何在新一轮建设热潮中,从规划、立项审批、建设、审计等环节以及方案指导、标准规范和技术支持等方面给予全方位保障,尽可能避免新“孤岛”的产生,也是一项重大挑战。(三)以开源为基础构建自主可控的大数据产业生态在大数据时代,软件开源和硬件开放已成为不可逆的趋势,掌控开源生态,已成为国际产业竞争的焦点。建议采用“参与融入、蓄势引领”的开源推进策略,一方面鼓励我国企业积极“参与融入”国际成熟的开源社区,争取话语权;另一方面,也要在建设基于中文的开源社区方面加大投入,汇聚国内软硬件资源和开源人才,打造自主可控开源生态,在学习实践中逐渐成长壮大,伺机实现引领发展。中文开源社区的建设,需要国家在开源相关政策法规和开源基金会制度建立方面给予支持。此外,在开源背景下,对“自主可控”的内涵定义也有待更新,不一定强调硬件设计和软件代码的所有权,更多应体现在对硬件设计方案和软件代码的理解、掌握、改进及应用能力。(四)积极推动国际合作并筹划布局跨国数据共享机制2018年11月17日,习近平总书记在APEC工商领导人峰会上发表主旨演讲指出“经济全球化是人类社会发展必经之路”,“各国都是全球合作链条中的一环”。在数字经济快速发展的时代背景下,我国应该积极推动在大数据技术和应用方面的国际合作,建立跨国数据共享机制,与其他国家一起分享数字经济的红利,同时也使我国获得更多发展机遇和更大发展空间,积极促进数字经济下人类利益共同体和命运共同体的构建。当前,我国正在积极推动“一带一路”合作发展。各国在合作的各个领域都将产生大量的数据。建议积极推进跨国的大数据治理合作,在保障数据安全的前提下,促进数据跨境流动,从而形成围绕国家合作各个领域的大数据资源,为数字经济领域的国际合作奠定坚实的基础。“一带一路”沿线大都属发展中国家,无论技术还是经济水平较之发达国家都有明显差距。而数字经济这一新经济形态的成型发展将带给包括中国在内的各发展中国家经济转型发展的历史性机遇期。经济后发国家有机会在新经济的全球垄断性格局形成之前,与发达国家站在同一起跑线上,并且由于没有“路径依赖”所带来的历史包袱,也有可能在新一轮的竞争中占有优势。(五)未雨绸缪,防范大数据发展可能带来的新风险大数据发展可能导致一系列新的风险。例如,数据垄断可能导致数据“黑洞”现象。一些企业凭借先发展起来的行业优势,不断获取行业数据,但却“有收无放”,呈现出数据垄断的趋势。这种数据垄断不仅不利于行业的健康发展,而且有可能对国家安全带来冲击和影响。又如,数据和算法可能导致人们对其过分“依赖”及社会“被割裂”等伦理问题。大数据分析算法根据各种数据推测用户的偏好并推荐内容,在带来便利的同时,也导致人们只看到自己“希望看到的”信息,从而使人群被割裂为多个相互之间难以沟通、理解的群体,其可能引发的社会问题将是难以“亡羊补牢”的。需要看到,以互联网为代表的新一代信息技术所带来的这场社会经济“革命”,在广度、深度和速度上都将是空前的,也会是远远超出我们从工业社会获得的常识和认知、远远超出我们的预期的,适应信息社会的个体素质的养成、满足未来各种新兴业态就业需求的合格劳动者的培养,将是我们面临的巨大挑战!唯有全民提升对大数据的正确认知,具备用大数据思维认识和解决问题的基本素质和能力,才有可能积极防范大数据带来的新风险;唯有加快培养适应未来需求的合格人才,才有可能在数字经济时代形成国家的综合竞争力。我的汇报结束,谢谢大家!(主讲人系中国人民解放军军事科学院副院长)名词解释:API:应用编程接口(ApplicationProgrammingInterface)的首字母缩写,是指某软件系统或平台为其他应用软件系统提供的一组函数,通过调用这些函数,其他应用软件系统可以使用此软件系统或平台的部分功能或访问某些数据。开源平台:“开源”是开放源代码的简称,开源平台是指支持开源社区活动,管理开放源代码,向所有开源社区参与者提供相关服务的软件平台(平台基于互联网构建并通过互联网通过服务)。任何人都可以获得开源软件的源代码并加以修改,并在某个预先约定的开源协议限制范围内发布修改后的新版本。结合上下文,这里的开源平台是指提供大数据管理、处理、分析等方面能力的开源软件的软件平台。可伸缩的计算体系结构:可伸缩英文为scalable,指一个计算系统的能力和性能随应用负载的增加,通过极少的改动或配置甚至只是简单的硬件资源增加,而保持线性增长的能力,是表征计算系统处理能力的一个重要的设计指标。可伸缩的计算体系结构是计算系统体系结构设计追求的重要指标,软件定义、虚拟化、资源池化等方法和技术常用于可伸缩性的实现。鲁棒性:鲁棒是英文Robust的音译,也就是健壮的意思,因此鲁棒性也被翻译为健壮性。鲁棒性一般用于描述一个系统在异常或极端情况下仍然可以工作的能力。结合上下文,这里谈及的大数据分析模型的鲁棒性是指在数据存在错误、噪音、缺失,甚至在恶意数据攻击等异常情况下,模型仍然能得到较为准确结论的能力。数据互操作:数据互操作是指不同信息系统之间可以通过网络连接对彼此的数据进行访问,包括对其他系统数据的读取与写入。数据互操作是实现数据共享的基础。“全数据”:“全数据”也称“全量数据”,是与“采样数据”相对的概念。传统的数据分析受限于数据采集、存储、处理的成本,一般都仅对问题相关的所有数据进行局部采样,并基于采样获得的部分数据进行分析,得出结论,结论的准确性与采样方法以及对被采样数据的统计假设密切相关。而大数据时代,人们开始提出“全数据”的概念,即,并不采样,而是将与问题相关的所有数据全部输入到分析模型中分析。这种方法避免了因采样而可能带来的误差,但是也增加了计算成本。云边端融合:云是指云计算中心,边是指边缘计算设备,端是指终端设备。以智能家居为例,智能电视、冰箱、空调等直接与用户交互的设备是“端”,通过互联网连接的异地的云计算平台是“云”,而安装在每个家庭的智能家居中控服务器是“边”。云计算中心具有强大的计算存储能力,一般用于复杂的数据计算处理;终端设备距离最终用户较近,对用户的操作响应快,一般负责与用户进行交互;边缘计算设备介于“云”和“端”之间,负责对端所采集的数据做本地化处理,同时将需要更强大计算能力支持的任务和数据发往云计算中心处理,并将“云”返回的结果提供给端设备。云边端融合是一种“云”、“边”、“端”不同计算设备各司其职,密切协同且优势互补的新型计算模式。宽带、移动、泛在的网络通信:“宽带”是指通信速率高,海量大数据的高速传输需求推动骨干网络向Pb/s发展;“移动”是指移动通信;“泛在”是指无所不在。宽带、移动、泛在通信是指:未来大量移动终端和物联网设备通过无所不在的接入网络接入主干网并通过高速主干网络进行通信。安全多方计算:安全多方计算是为解决在保护隐私信息以及没有可信第三方的前提下,一组互不信任的参与方之间的协同计算问题而提出的理论框架。安全多方计算能够同时确保输入的隐私性和计算的正确性,在无可信第三方的前提下通过数学理论保证参与计算的各方成员输入信息不暴露,且同时能够获得准确的运算结果。此项技术的研究尚处于初级阶段。同态加密:同态加密是一种密码学技术,其核心在于保证:对经过同态加密的数据进行处理(如:运行某种数据分析算法)后得到输出,将这一输出进行解密,其结果与用同一方法(即上述数据分析算法)处理未加密的原始数据得到的输出结果一致。同态加密技术使得数据拥有者可以将数据加密后交给第三方处理,从第三方获得处理结果后,对此结果进行解密便可获得所期望的结果。如此一来,数据拥有者就不必担心因将原始数据交给第三方而存在的隐私泄露风险,同时又能获得第三方提供的数据分析服务。此项技术的研究尚处于初级阶段。联邦学习:联邦机器学习是一个多组织协同的机器学习框架,使得一个组织在不共享原始数据的情况下,可以利用其他组织数据中所蕴含的信息和知识,建立协同的机器学习模型。此模型比各组织仅利用本组织内部数据而训练的机器学习模型有更高的性能。此项技术的研究尚处于初级阶段。ZB、EB、Pb/s、Gb/s:在计算机领域,一个二进制位称为一个比特,一般用小写b表示;而8个二进制位称一个字节,用大写B表示。简言之:1B=8b。计算数据量或数据所需存储空间大小时,习惯用字节为单位(用B表示)。1KB=1024B,1MB=1024KB,1GB=1024MB(通常简记为109),1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB。1EB约等于10亿GB,而1ZB约等于1万亿GB。假设一首长为3分钟的歌曲录制成MP3文件(44K/320kbps音质),大小约为8MB,那么1ZB的数据存储空间可存储MP3格式歌曲140万亿多首,如果全部听一遍,需要8亿多年。计算网络传输速率时习惯上用比特每秒为单位(用b/s表示)。1Pb/S和1Gb/S分别代表1秒钟传输的数据是1P(1000万亿)个比特和1G(10亿)个比特。网络速率1Gb/S(此处是小写b)的情况下,下载一个2GB(此处是大写B)的电影,需要16秒;而网络速率1Pb/S的情况下,仅需要0.016毫秒。来源: 中国人大网
欢迎关注“星图数据”!大数据浪潮席卷全球,各领域应用层出不穷在信息技术不断发展、信息系统快速拓展的今天,来自四面八方以指数级速度增长的数据渗透着我们的生活,人类进入大数据时代,海量的数据蕴藏巨大财富。近年来,全球大数据产业规模增长势头迅猛;与此同时,新技术新方法也迅速地涵盖了各个行业,各领域的大数据应用层出不穷。从总体规模看,2019年全球大数据市场规模达到48034.8亿元,较2018年的产业规模增长了近50%,预计到2020年底全球大数据市场规模将达到67782亿元。全球主要国家和地区纷纷将开发利用大数据作为夺取新一轮竞争制高点的重要抓手,实施大数据战略,对大数据产业发展有着高度的热情。2020年,美国、中国、欧洲、日本、澳大利亚五个国家和地区的大数据产业市场总份额超过了80%。中国大数据产业不仅占据着五分之一的全球市场份额,且市场规模增速明显,预计未来中国将成为全球数据中心。2019年中国内地的大数据产业规模达到5368亿元,增长率达到23%;其中,大数据服务行业规模达到1782亿元,增长率达35%。从各领域的应用情况来看,大数据产业横跨互联网、金融、文化传媒、政务、电信、零售、电力、医疗、能源、教育、制造、餐饮、农业、地产、旅游等多个行业。其中,大数据在互联网、金融、文化传媒、政务的渗透更为深入、成熟度更高,主要表现在技术设施更完善、应用更广。全球市场研究:新兴市场增速较快,大数据悄然改变行业形态2018年ESOMAR发布的《全球市场研究行业报告》显示,2017年全球市场研究行业营收规模达到458.29亿美元,增长率为1%,行业保持平稳缓慢增长。其中,北美和欧洲市场由于发展早、基础好,占据了80%的市场份额,但已过行业发展黄金期,增速减缓;中东和亚太地区行业增长速度最快,行业发展前景被普遍看好。全球五大市场研究市场分别是美国、英国、德国、法国和中国,总市场规模超七成。2017年中国市场研究全球市场份额首次超过日本,成为全球第五大市场研究国家。大数据时代来临,人力正逐渐被标准化、智能化的机器或程序取代,市场研究行业也不例外。随着数据获取、存储和分析的技术不断提升,人们对于通过传统抽样调研以获取洞察的依赖性降低,大数据推动着市场研究从传统领域升级,悄然改变着行业形态。大数据推动传统市场研究行业升级最显著的表现是新兴技术在行业中的的应用越来越广泛。其中,自动化一直是各个国家都关注的热点:全球约60%-70%的公司已经或正在计划实现通过自动化手段生成分析使用的数据和信息。此外,值得注意的一点是,神经营销及相关工具,如眼动追踪和面部表情分析等,在欧洲公司中非常受欢迎,在北美和亚太地区的公司则略有滞后。在基于大数据技术的新兴的市场调查研究方法中,手机问卷和在线社区是两种主流的方法,全球超过半数的市场研究公司都在使用;媒体分析、文本分析等也被广泛地接受,全球接近40%的市场研究公司正在使用大数据分析;研究博弈论、市场预测、面部分析方法也获得了一定的关注,绝大多数公司在静时机。国内市场研究:大数据研究影响有限,企业新技术应用热情高涨根据市场研究协会发布的《中国市场调查行业发展趋势报告》,2018年中国内地的市场研究行业规模达到156.03亿元,行业增长率达到11.37%;2019年,行业规模突破170亿元。行业规模持续扩大,发展速度保持稳定。2018年,我国基于大数据技术的研究在市场调查研究行业中的应用比例为8.67%,且呈现出不稳定趋势,近两年提升也并不显著,主要有两个原因:一是由于大数据人才缺失、大数据与固有研究模式融合等问题,使得市场研究公司对于大数据研究的学习、使用仍处于发展阶段;二是大数据热潮回归理性,专业的大数据服务商涌现,提高了大数据应用的专业性和竞争力。互联网大数据采集与分析是大数据研究方法中最主要的构成,但在所有研究方法中的占比仅为3.98%;社交媒体、政府大数据以及其他大数据研究,相对来说发展较为平均,并且均未超过总体的2%。目前,中国内地市场研究公司数量超过800家。由于基于大数据的研究技术和方法入门门槛相对较高,大数据研究在市场研究行业所产生的影响还有所局限。但这并不影响企业的应用热情:市场研究企业中,运用大数据研究方法的企业数量占到总体的46.45%;同时大数据研究带来效益有所回升:2018年大数据研究的营业额占总营业额的比例为13.08%,相较于2017年实现了大幅增长。国内市场在基于大数据研究技术的应用上,可视化分析技术最受欢迎,有31.69%的市场研究公司采用;有超过2成的市场研究公司采用自然语言的语义、文本分析技术,也体现了当前数据分析和数据挖掘的热点;此外,空间地理GIS分析技术、商业智能BI相关技术、机器学习和自动建模技术、社会网络分析技术、深度学习技术也得到了采用,占比均在15%左右,有待加强学习、增加应用。最后,从大数据与市场研究行业的关系上来看,大数据的魅力在于它并没有喧宾夺主,也不具备侵略属性,它只是作为创新和提升效率的工具去为行业赋能,推动传统行业升级。对于市场研究行业,大数据应用与传统市场研究方法深度融合,不仅可以驱动行业发展,还可以帮助传统的市场研究企业拓展服务的深度和广度,探寻新的业务增长点。全球的市场研究企业都应把握大数据时代带来的机遇,积极探索和应用大数据研究方法,不断优化自身的产品与服务,方可打开新局面。有其他数据需求也可以发送相关信息至info@syntun.com邮箱,星图数据会尽快给您回复。线上零售大数据可视化分析工具为品牌企业提供丰富直观的数据查询、分析和预测功能星图数据能帮您解决什么问题?洞悉市场变化|了解竞争对手|提升盈利能力微信号:星图数据英文ID:syntun
大家一谈到大数据,有个初步的映像,那里是通过大数据,能知道用户的一切,其实这是有偏差的,大数据本身包含数据本身,技术,数据分析,应用等。用户画像是其中之一,先来说说用户画像。用户画像是啥,用户画像是根据用户行为数据,形成用户特征的一个模型。比如A用户,特征标签有性别,年龄,爱好,兴趣,家庭情况等,通过大量的数据,总结出用户详细的特征,建立用户特征库,形成用户画像为下一步用户挖掘提供数据支撑。在海量用户行为数据里,如何不进行用户特征分析,就无法对用户进行定性与定量。从而不能产生特定价值。客户价值是商业上重要的价值,能更好地找到有意向客户,提高成交率。大数据另一个应用是找出相关性,相关性分析是一个重要的分析工作。在大数据中常常出现距离这个词,在我们日常生活中距离是指物理距离,而在数据科学中,距离代表了两个数据差异程度的度量。有了这样的度量,我们就能得出数据之间的差异程度,从而更好地发觉相似相近的数据,特征相符的数据。找出相关性是一个非常重要的工作,例如它可以通过用户特征来推荐出更容易成交的商品。加大成交量。大数据还有很多应用,有时间详细写写。大数据技术这里谈一下,目前大数据技术已经遍地都是,说说主流的技术,hadoop对于技术人士来说已经非常熟悉了,通过maprece、spark等计算技术进行数据处理与数据分析是很多技术人员做的工作。大数据技术必须具备海量数据处理能力,且可以扩展以适应大小不等数据规模。