欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
大数据简史三生

大数据简史

2019年5月,2019中国国际大数据产业博览会在贵州举行。对业内人士而言,这样的会议已成为常态,毕竟今年已经是第五个年头;对普通大众而言,大数据虽然已耳熟能详,但多为泛泛的了解,它如何以迅雷不及掩耳之势发展为一种产业,又如何能够以超凡的魅力吸引世界的目光在贵州对其进行“博览”,绝非一个想当然的现象。可以毫不夸张的说,未来社会就是数据型社会,这已经导致有些学者甚至科学家在意识形态多元化的今天又开辟了一块新的领地,并在上面竖起了“大数据主义”的大旗。更有甚至,有些人干脆将传统连根拔起,让数据取代基因、量子等,成为新的“存在之王”。大数据来势汹涌,气势磅礴:它会把人类的文明推上新的高度,也会把人性的弱点加倍呈现;它会重塑我们这个时代,也会影响每一个个体。从某种程度上讲,如果不了解大数据,就无法洞悉未来。同样,如果不了解大数据的历史,就无法真正的理解大数据。下面,笔者企图用几个标志性的事件对大数据做一次回溯,记为大数据简史。公元前20世纪——早期实践公元前2000年的一个夜晚,天空晴朗,在古巴比伦城的郊外,几个僧侣正在仰望星空。他们既非赏月,也不是对天冥想,而是观测。只要天空条件允许,他们几乎夜夜观察天空的景象,并把结果记录在土碑上。日积月累,他们汇总了大量的信息,并渐渐从中看出了天文现象的周期性。那个时候,他们就已经把一年定为360天,或12个月,时常还加入闰月,作必要的调整。据公元前6世纪的一个文件说,到后来,他们已经能够事先计算出太阳和月亮的相对位置,因而也就有可能预测日、月食了。有人认为,古巴比伦人的天文观测不算大数据,而且把大数据的历史推到公元前有些荒诞。但是,就像我们把伽利略视为近代科学实验方法之父,并不代表在他之前没有科学实验一样,大数据的崛起固然与计算机技术的腾飞有很大关联,也不代表着计算机诞生之前没有大数据的应用。实际上,在《大数据时代》一书中,作者维托克·迈尔-舍恩伯格就将马修·方丹·莫里的导航图,视为大数据的早期实践,而这个人生活在19世纪。如果我们对大数据的认知跳出计算机的框架,就会发现历史上有关大数据的实践还有很多。古人通过长期观察,发现了蛙鸣与下雨的关系;亚里士多德每天打破一个鸡蛋,观察小鸡胚胎的发育过程;门捷列夫根据既有的元素制定了元素周期表。等等这些案例,无不彰显出大数据的影子。17世纪40年代——数据前传说到大数据,很多人的意识里会冒出“小数据”的概念。遗憾的是,在大数据的世界里,它只有“前传”,没有对偶,毕竟从预测、分析的角度来看,谈论“小数据”是没有意义的。要说前传,我们必须从“数据”这个词开始。如此一来,我们必须回到英语的世界,追溯“data”的起源。据说,“data”的出现可以追溯到17世纪40年代。不过,当时这个单词的意思与现在并不相同,而是与它的拉丁语起源“datum”相似,有“给予”之意。而真正意义上用“数据”表示“可传输或储存的电脑信息”还要在300年以后,准确地说,是在1946年,也就是世界上第一台计算机诞生之年。而“数据处理”这种与大数据运用息息相关的表述,则是在1954年被第一次使用。20世纪80年代——概念成型数据自1946年有了我们现在所理解的那种“传输”、“储存”的意义之后,并没有引起人们额外的惊奇,而且数据的价值和意义还主要停留在分析、分享的阶段。这很容易理解,毕竟计算机从诞生到普及还有一段路要走。不过,这段路并没有走太久,在20世纪80年代的时候,人们就已经意识到数据的几何级增长可能对世界带来的冲击。比如,在1980年,美国著名未来学家阿尔文·托夫勒就在其著作《第三次浪潮》中,将“大数据”称为“第三次浪潮的华彩乐章”。不过,他可能并没有在书中直接用到“大数据”这个词汇,因为公认的最早使用这个词汇的人是90年代在美国硅图公司担任首席科学家的John Mashey。就像数据的概念从诞生到后来会发生意义流变一样,大数据的初始内涵与它现在的意义也肯定不甚相同。托夫勒也好,John Mashey也罢,他们当时对大数据的理解更多的停留在表象层面,至于大数据的理论以及可能的应用范围等,还是后来在商用的刺激下被不断深化和放大的。20世纪90年代——小试牛刀如今,在讨论大数据的时候,人们通常会把沃尔玛“啤酒与尿布”的故事与谷歌“预测流感”的故事作为案例一起分析,就好像这两个故事发生的时间大体相似。实际情况是,当沃尔玛有意识地利用销售数据预测顾客的购买动机及行为时,谷歌公司还没有成立。作为大数据应用的知名商业案例,“啤酒与尿布”的故事可以追溯到20世纪90年代。当时,沃尔玛超市管理人员分析其销售数据时,发现了一个难以理解的现象:在日常的生活中,“啤酒”与“尿布”这两件商品看上去风马牛不相及,但是经常会一起出现在美国消费者的同一个购物篮中。这个独特的销售现象引起了沃尔玛管理人员的关注。经过一系列的后续调查证实,“啤酒+尿布”的现象往往发生在年轻的父亲身上。当然,这个现象源于美国独特的文化。在有婴儿的美国家庭中,通常都是由母亲在家中照看婴儿,去超市购买尿布一般由年轻的父亲负责。年轻的父亲在购买尿布的同时,往往会顺便为自己购买一些啤酒。沃尔玛的管理人员发现该现象后,立即着手把啤酒与尿布摆放在相同的区域,让年轻的美国父亲非常方便地找到尿布和啤酒这两件商品,并让其较快地完成购物。这样一个小小的陈列细节让沃尔玛获得了满意的商品销售收入。2008年——走向正统2008年对“大数据”而言算得上是一个分水岭,因为国际知名杂志《自然》推出专刊,对其做了介绍。3年后,美国的《科学》杂志也做了同样的事情。它们从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了海量数据所带来的技术挑战,自此,“大数据”一发不可收拾,成为学界研究的热点。鉴于《自然》、《科学》等杂志在国际学术圈中的权威及影响,推出专刊介绍大数据,无异于为其作了背书。如果说,大数据在此之前只是商人、学者零散的激情,那么此后则成为了整个社会的共鸣。2012年——新的时代2012年,有两本书在国内市场上异常火爆,一本是著名信息管理专家、科技作家涂子沛的《大数据》,另外一本是著名数据科学家维克托·迈尔-舍恩伯格的《大数据时代》。当然,有关大数据的作品还有很多,但这两本书最有代表性,因为他们用通俗易懂的语言,形式多样的案例对大数据做了一次既具有科普性又不失趣味性的解读。特别是维克托·迈尔-舍恩伯格,从理论的层面预言大数据将导致人类思维、商业以及管理领域的变革。以思维为例,之前人们以“因果”作为拓展新知,产生洞见的固有逻辑,但大数据的出现将“相关关系”上升到思维的高度。基于此,有学者甚至发出“理论的终结”之类的感叹。不管上述分析正确与否,大数据作为一个时代的标签已经成型。这一判断非常容易得到确认,因为现代社会所有的设备和系统,如果没有数据的参与,就无法智能。云计算也好,人工智能也罢,从根本上讲,都是靠数据驱动的。19世纪、20世纪有很多标签,但不妨碍我们称其为“石油时代”。同理,21世纪还存在着诸多可能,但不妨碍我们称其为“大数据时代”。江云联动一带一路 古亦新

利根

数据是重要资之大数据的历史

大数据目前已经成为很多领域中最流行的词汇了,其实它并不是一个新的概念,早在1980年,著名未来学家阿尔文·托夫勒就在其著作《第三次浪潮》中明确提出了“数据就是财富”的观点,并热情地将大数据称为“第三次浪潮的多彩音乐”。大数据中的“大”是一个相对概念。数据库、数据仓库、数据集市等信息管理领域的技术也很大程度上是为了解决大规模数据的问题。Bill Inmon,被称为数据仓库之父,在20世纪90年代经常谈到“大数据”的概念。大数据这个被广泛认可的概念最初是由著名咨询公司Gartner的高级分析师道格拉斯兰尼(Douglas Laney)提出的。2001年,他写了一篇关于应用交付策略的文章,名为《3D数据管理控制数据量、速度和多样性》。他指出,大数据管理面临三大挑战:容量、多样性和速度。“3V”已经成为大数据识别的三大基本特征之一。随后,Gartner发布了大数据模型,强调大数据需要管理传统数据管理技术无法管理的数据,如微博数据、海量交易数据、多媒体数据等。于2008年9月,《自然》杂志上“大数据”,通过“下一个Google”,“数据争论”,“欢迎来到petacentre”,“Disilling meaning from data”等文章,更全面的介绍了大数据问题和影响在不同的研究领域,引入“大数据”的概念第一次科学家和研究人员。2009年8月,Adam Jacobs在ACM Queue上发表了一篇名为“大数据的病态”的文章。本文论述了大数据问题的起源、发展和现状,指出“大数据”的概念是相对的,并提出了应该考虑为什么会出现“大数据”现象,“大数据”出现的很大一部分原因是认为数据录入更容易。2011年2月11日,《科学》杂志专门出了一期关于《数据处理》的特刊,探讨了科学领域大数据现象的现状。特刊首先与《科学》合作发行,《科学转化医学与科学事业》是科学的兄弟期刊,研究各种科学领域研究数据规模急剧增长时的各种问题,包括“研究数据规模”、“如何存储研究数据”等。随后,本期特刊发表了多篇文章,对天文学、气象学、生态学、神经科学、信号处理、社会科学、生物学等学科的大数据问题进行了解释和阐述,涵盖了数据的收集、分析、处理、挖掘和可视化。、2011年5月,麦肯锡全球研究所(McKinsey global institute)发布了白皮书《大数据:创新、消费和生产率的下一个前沿》(Big data: The next frontier for innovation, comperition, and proctivity)。指出企业面临着大量的交易数据、客户信息、供应商信息、运营数据等需要管理和挖掘的问题。在物联网环境下,传感器、智能手机、工业设备等正在产生海量的数据。互联网上的多媒体数据量也呈指数级增长。如何处理这些数据,为用户提供有用的信息已经成为一个需要考虑的重要问题。2011年5月26日,《经济学人》发表了《用大数据建设》,指出在数据极度膨胀的时代,需要掌握数据的分析和处理能力,成为数据的主人,而不是数据的奴隶。2012年2月11日,《纽约时报》发表《大数据时代》,向公众宣传大数据时代的到来。2012年3月22日,奥巴马总统宣布了一项2亿美元的投资在大数据领域,电话会议的第二天,美国政府将数据定义为“新的石油的未来,”美国政府意识到一个国家的数据的大小,活动和使用说明的能力将成为综合国力的重要组成部分,在未来的占有和控制数据将即使土地权力,海上力量,空军力量超出了另一个国家的核心资产。2012年7月10日,联合国在纽约总部发布了《大数据治理白皮书》,总结了世界各国政府如何更好地利用大数据服务和保护人民。

臣无所见

从大数据的发展史,看数据中台的核心价值

关注并将「人人都是产品经理」设为星标每天早 07 : 45 按时送达自从数据中台提出以后,各行各业都开始推出关于中台的应用和落实;数据中台的核心价值是什么?所有公司都适合做数据中台吗?本文作者详细分析了大数据下的数据中台。作者:木子姐,数据产品专家题图来自Unsplash,基于CC0协议全文共 2540 字,阅读需要 5 分钟—————— BEGIN ——————“数据中台”是进今年比较火的一个词,正在做数字化转型的传统型公司都会首选做数据中天项目,建设数据中台嫣然成为传统企业数字转型的首选。但为什么要做中台、好处是什么、能给企业带来什么价值、是不是所有公司都适合做数据中台,这是随之而来的问题。01大数据发展的历史上个世纪90年代开始出现数据仓库概念,他帮助企业做出经营分析决策。例如在销售行业的门店管理中,如何使单个门店的利益最大化,就需要分析每个商品的销售、库存数据,按照不同的时间周期:每日、每周、每月,找到商品销售规律以及关联影响,然后制定出合理的商品采购计划和促销活动,这些都是依赖与大量的数据分析。比尔.恩门给出的数据仓库定义:数据仓库是在企业管理和决策中面向主题的集成的、与时间相关的,不可修改的数据集合。数据仓库是会按照主题去集成数据,你可以把主题理解成一个目录,主题是不会轻易改变;所以划分主题时要尽量做到与业务相关,且容易区分数据划分规则。进入互联网时代后,数据规模前所未有的快速增长:例如:抖音、微信,每天都在产生千亿级的用户行为数据,同时数据结构也在变得复杂多样化,有结构化、非结构化、半结构化的数据产生;例如:app、web的埋点数据、后台日志数据。这些特点都是传统数据仓库所难以承载的。所以hadoop出现了,他有两个优势:完全分布式,易扩展,而且使用廉价的计算机就可以集成一个计算、存储能力很强的集群,满足海量数据处理需求;弱化数据格式,数据集成到hadoop后,数据模型与数据存储分离,在数据使用时,按照不同的数据模型读取数据,满足多种数据结构的分析需求。随着hadoop技术成熟,出现了数据湖的概念。数据湖的出现我认为标志这hadoop是走向商业化成熟的标志:企业可以基于hadoop构建数据湖,将数据作为企业核心资产。接下来,如何让数据的加工能够像流水线一样作业。大数据平台的概念就被提出来了,就是为了提升研发的效率,降低数据研发的门槛,让数据像流水线一样被加工。大数据平台服务的对象是数据研发人员,可分为数据集成、数据模型开发、数据测试、数据运维,底层是以HADOOP为代表的大数据框架,包含存储、计算、资源调配(HDFS、MapRece、yarn),大数据平台就像流水线设备,数据就是被加工的内容,最后产出指标,呈现在各BI或其他的数据产品中。随着经济、业务快速增长,业务人员也对数据采集响应要求变快,数据指标共享也逐渐变多,逐渐又出现了数据中台概念。前面讲的都是数据发展历史,是为了让大家明白每一次演变的本质都是满足业务需求或者痛点。数据中台也是一样的道理。先说下大部分企业数据的痛点:烟囱式的业务发展模式,导致数据也是烟囱式的发展,数据是割裂的,导致大量的重复开发、计算、从而导致研发效率的浪费、计算存储资源的浪费,大数据的应用成本也越来越高。比如本人所在公司每年投入的硬件资源都是过亿,同时这种带来的还有不同数据应用平台展示相同指标的结果会不一致。为了解决这些问题,数据中台的价值也就出来了。数据中台最核心的价值:避免数据的重复计算提升数据服务力提高数据共享力将数据资产化管理。最后可以看出:数据中台是构建数据湖之上,具备数据湖能够处理多样化结构的数据计算、存储能力;数据中台依赖于hadoop大数据平台,数据中台比大数据平台增加了数据治理和数据服务的内容;数据中台借鉴了传统数据数据仓库面向主题的数据建模理论,构建统一的数据共享层。02数据中台与业务数据相结合数据中台价值的产生一定要是与业务数据应用场景相结合,举个案例:保险行业的队伍管理的增员场景看,主管要促进自己的团队架构裂变就需要进行增员,在这个过程中主管需要分析哪些人适合增员,增员的成功通常需要满足哪些条件,每日还要对代理人的增员进行效果追踪。要做这些分析就要用到代理人的行为和业绩数据,同时还要有标杆案例数据,通常这些数据都存放在不同的数据库里面,并且要以日的频率提供数据到页面上进行展示。传统数据处理逻辑:各业务系统对数据进行加工处理,然后将结果提供给报表平台进行展示,但这个会出现,A报表和B报表对于相同的指标可能指标结果不一致,并且各系统之间指标重复计算。数据中台是把各业务系统的增员数据进行汇报,然后统一做数据清洗,加工建模,最后以API接口形式提供结果给应用系统在不同的页面进行展示——既避免了重复计算,也提升了开发效率,还提供数据共享,同时也保证了数据的一致性。最后讲下数据资产化管理,可以分两块看:1)从面向开发角度看:数据中台可以提供开发血缘关系分析和指标、标签字典,开发通过血缘关系、指标、标签字典查询可以快速掌握数据结构,了解业务数据的逻辑。2)从面向业务角度看:通过数据中台可以产出数据资产目录及报告,让数据资产以可视化形式展示,管理层了解公司数据情况,例如:公司数据资产目录,每个部门对数据的使用情况,最核心资产是哪块。通常都会有一个数据资产管理平台去承载。不是所有公司都适合做数据中台,要满足特定条件才适合建立数据中台,以下条件可供参考:首先,公司是否有大量的数据应用场景,数据中台自身是不能直接产生业务价值,本质是快速支持数据应用,当企划有较多的数据应用场景时就考虑;其次,公司业务经历过一轮野蛮式快速扩展,产生大量的数据,存在较多的业务数据孤岛,需要整合各业务系统的数据,进行关联分析;业务对数据的需求有明显提升,数据采集要求高,指标准确性,开发团队面临大量的数据开发、数据质量、数据效率、数据成本等问题;企业面临经营困难,需要通过数据实现新的业务突破点,提升业务运营效率的时候。数据中台投入大,时间周期长,说的通俗点数据中台适合有钱稳定的大公司,不适合初创型的小公司。—————— / END / ——————

泾流之大

用大数据来还原真实的历史

我们通常用上下五千年来形容中国的历史。而有史料记载的最早的王朝是商,时间约前17世纪-约前11世纪,历时六百年。商朝是第一个有文字记载的王朝。商朝以前的历史,曾经有人考证过,还有两百多万年。那是从盘古开天地或者女娲造人时算起的,可信度有限。我们研究的历史,主要的来源还是史书。唐太宗以前的官方史书是值得信任的,因为史官坚持直笔书写原则,君王们基本上是不干涉史官直笔原则的,偶尔有一个企图干涉还被顶了回去。可见史官的地位还是很高的,有点像现在讲的司法独立。但是,到了唐太宗时期,情况发生了根本变化,史官直笔书写历史原则遭到了皇帝的干涉。唐太宗登基途径不正当,他发动玄武门之变,杀兄弑弟,逼退父皇,霸占兄嫂弟媳,手段十分不光彩。据说,李世民在玄武门之变前,他的军事能力并不如太子李建成,有野史记载,李世民指挥作战经常大败而归,多次是李建成收拾残局,挽回胜利。当然,这里面的真实性有待考证。不过,唐太宗李世民开了君主干涉史官直笔书写原则,要求史官讲政治,美化自己。这让官方史书和以前相比变得不可全信了,要谨慎对待。即便是李世民之前的史书,也并不一定是完全忠于史实的。这不是说史官刻意歪曲,而是依据性不强,有些史实是道听途说而来的。就如同《史记》,开篇的几卷,哪里有什么历史依据?况且司马迁刚刚受了宫刑,身心都受到了极大的摧残,他没有能力更没有条件去搜集史料,更不用说考察辩证了。据说著名的霸王别姬一事就值得推敲。史记之前,找不到任何关于此事的记载。项羽自刎乌江,确切的地点在哪里?这里,并不是苛求司马迁。他已经很不容易了,只是没有条件,没有资源,能写出这么一部震铄古今的大作来,我们这些后人只能给他点赞。但是,《史记》很多内容也并非史实。比如,在《苏秦张仪列传》中,苏秦合纵而张仪连横。两人一时瑜亮,故事描写得非常生动。但上世纪70年代,长沙马王堆汉墓出土的《战国纵横家书》体现了另外一种不同的格局,张仪活跃的年代比苏秦要早几十年。张仪去世的时候,苏秦还只是个小人物,两人根本不可能有相互交手的机会。再如,周幽王烽火戏诸侯。但现在非常确定的说法,这一件事根本不可能存在。烽火台的发明是秦汉时期的事情,周幽王时期根本就不存在,更不可能为了取悦褒姒点燃烽火召集诸侯。秦始皇焚书坑儒后,史料记载的东西散失殆尽。估计当时的司马迁一定程度上选择了野史。几千年过去了,这些湮灭在历史长河里的真实还能不能还原呢?答案是肯定的。陈寅恪先生在研究历史就采取了重证据、重事实的途径,又吸取西方的“历史演进法”,即从事物的演化和联系考察历史,探究史料,运用这种中西结合的考证比较方法,对一些资料穷本溯源,核订确切。他辨识出了很多的史料问题。这是陈老先生学贯中西,知识面太广所致。他可以把不同领域的史料结合到一起来研究。陈先生可以,那位人品不佳的郭老也可以。但是,这样的大才毕竟有限。即便是才高如陈寅恪郭沫若,他们能了解的知识也毕竟有限。在当今知识爆炸的时代,把考古学,天文学,地质学,气象学,国外史料和现有的历史记载结合在一起,采用数字智能分析,应该很快就能辨别出谬误的史料。数据信息越多,辨识的准确度就越高。从涿鹿之战到满族入关,中华大地历经几千年的洗礼,中国的农耕文明终于和游牧文明合二为一融合在一起。这期间,中原王朝屡遭游牧文明的洗劫,和气象学的关系就很大。游牧民族的生产力低下,夏秋季节牛羊膘肥体壮,猎物遍地跑,不愁吃喝,日子过得很好。但是一到冬春季节,由于牧草枯竭,他们又没有储存的粮食,饿肚子是经常的事,日子很难熬。洗劫中原王朝来生存就是他们的唯一出路。所以从汉朝以来,中原王朝一直与游牧民族作战,从匈奴到契丹,还有女真和突厥等。这些游牧民族就是靠天吃饭的,研究古代气象学,有利于还原当时的历史。传说中的的竹书在很大程度上改写了上古的历史,许多古墓里都出土了史书典籍,这些史料可能记录着真实的历史。另外,从唐朝开始,国际交往就愈加频繁。这些外国人回国以后,也会记录下这些经历。比如《马可波罗游记》。这些人可能不会受到李世民的威胁,记载的内容更趋近于真实。相信大数据时代,计算机会为我们还原出一部真实的中国历史。

是皇

从电子数据的发展史,告诉你大数据有多“大”

当今学习大数据是全球都非常热门的课程,因为大数据无论在现在,还是在未来都有极大的影响力。我们谈论的数据(电子数据)是基于计算机应用形成的包括符号、文字、数值、声音、图像,视频等资料。现在的社交微信APP、电子商务、电子支付和人工智能能领域都离不开这些基础数据的应用。那么我们说的大数据究竟有多大呢?我们可以从电子数据的发展历史来进行探索。从最早的穿孔卡,到磁带、硬盘、闪存、云存储等的出现,都在推进整个信息时代的发展。穿孔卡是早期计算机的信息输入设备,通常可以储存80列数据。它是一种很薄的纸片,面积为190×84毫米。穿孔卡IBM在1950年最早把盘式磁带用在数据存储上,一卷磁带可以代替1万张打孔纸卡,成为直到80年代之前最为普及的计算机存储设备。盘式磁带1953年,第一台磁鼓存储器在IBM701计算机中应用,磁鼓长度为16英寸,有40个磁道,每分钟可旋转12500转,可以存储10KB数据。1956年,IBM发布了305 RAMAC硬盘机,可以存储4.4MB数据。305 RAMAC硬盘机1980年,IBM推出了第一款GB级的IBM 3380硬盘,容量达2.5GB。我们目前用的CD光盘、DVD光盘、机械硬盘、固态硬盘、移动硬盘、U盘,可以存储几百GB到数十TB的数据。从数据存储介质在这几十年的飞速发展来看,的确对当今信息化做出了非常大的贡献。机械硬盘下面我们再从数据的单位和数据量的变化来分析。电子数据单位换算1B(Byte字节)=8bit1KB (Kilobyte 千字节)=1024B,1MB (Mega byte 兆字节 简称“兆”)=1024KB,1GB (Giga byte 吉字节 又称“千兆”)=1024MB,1TB (Tera byte 万亿字节 太字节)=1024GB,1PB(Peta byte 千万亿字节 拍字节)=1024TB,1EB(Exa byte 百亿亿字节 艾字节)=1024PB,1ZB (Zetta byte 十万亿亿字节 泽字节)= 1024 EB,1YB (Yotta byte 一亿亿亿字节 尧字节)= 1024 ZB字节 (byte):8个二进制位为一个字节(BUTF-8编码:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。一首MP3音乐大概需要 几—10M的存储空间;高清视频一般400M~800M左右; 超清视频一般800M~3G左右。一辆联网的自动驾驶汽车每运行8小时将产生4TB的数据。这主要来源于自动驾驶汽车将拥有的数百个车载传感器。仅汽车高清摄像头就能每秒产生20-40Mb的数据,而激光雷达每秒将产生10-70MB的数据。Facebook每天产生4PB的数据,包含100亿条消息,以及3.5亿张照片和1亿小时的视频;Instagram照片墙上,用户每天要分享9500万张照片和视频;Twitter用户每天要发送5亿条信息。2018年微信每天有450亿次信息发送,有4.1亿次音视频呼叫成功。2020 我国占全球数据总量的20%。根据据IDC发布《数据时代2025》的报告显示,全球每年产生的数据将从2018年的33ZB增长到175ZB。175ZB的数据到底有多大呢?1ZB相当于1.1万亿GB。如果把175ZB全部存在DVD光盘中,那么DVD叠加起来的高度将是地球和月球距离的23倍(月地最近距离约39.3万公里),或者绕地球222圈(一圈约为四万公里)。随着今后物联网、人工智能的发展,将会产生更加多海量的数据。如何存储大数据、应用大数据,从大数据中挖掘出价值,将是我们要面临的新挑战。

怵惕之恐

揭秘腾讯大数据十年发展历程

大数据技术在过去10多年中极大改变了企业对数据的存储、处理和分析方式。如今,大数据技术逐渐成熟,涵盖了计算、存储、数仓、数据集成、可视化、NOSQL、OLAP分析、机器学习等丰富领域。在未来,大数据技术还会往引擎容器化、大数据机器学习、数据湖等方面不断延伸。近日,腾讯大数据技术沙龙首站——Angel专场在深圳举办,腾讯大数据团队详细披露了腾讯大数据十年发展历程,并全面展示了腾讯第三代全栈机器学习平台Angel在大模型数据训练、深度学习、图计算等方面的技术能力,也深入分享了在微信支付、效果广告、微众银行等场景上的应用案例。会上,腾讯大数据负责人刘煜宏正式发布了"星火计划",他表示:"在腾讯大数据十年的发展历程中, 我们不断追求技术创新, 集群数从30台到突破35000台。2016年,我们打破了计算奥运会之称的Sort Benchmark 4项世界纪录,性能全球领先。腾讯大数据的发展从开源中受益,秉承着开放共享的精神, 今天我们也推出技术共享的'星火计划',希望能够助力和反哺大数据生态繁荣。"腾讯大数据发展"三部曲"作为大数据领域的前沿探索者,腾讯大数据从2009年开始, 经历离线计算、实时计算与机器学习三个阶段,在实践中积累了大量的经验。据刘煜宏介绍,2009年之前,腾讯主要使用传统的关系型数据库。2009年开始,传统的单机数据库所提供的服务,在系统可扩展性、性价比方面已不再适用腾讯业务爆发式的增长。面对这种变化,腾讯大数据转向分布式,基于开源的Hadoop体系,构建了腾讯第一代大数据平台,并建设离线计算平台,主要发力规模化。腾讯大数据由此进入第一阶段。三年里,腾讯实现了从关系型数据库到自建大数据平台的全面迁移,到2012年,腾讯大数据的单集群规模突破了4400台。2012年,移动互联网爆发,应对业务数据统计及时性、快速性的需求,腾讯大数据从Hadoop转向Spark和Storm体系,在吸收开源技术的基础上,结合腾讯自身的需求进行重写,探索流式计算、秒级采集系统的建设,构建企业级的实时数据分析体系,腾讯大数据发展进入第二阶段。2015年至今,腾讯大数据迈入了第三阶段。随着数据挖掘、数据应用的深入,腾讯大数据再次自我迭代,于2016年推出了自研机器学习平台Angel,专攻复杂计算场景,可进行大规模的数据训练,支撑内容推荐、广告推荐等AI应用场景。它由腾讯与北京大学联合研发,兼顾了工业界的高可用性和学术界的创新性。不仅支撑腾讯自身业务需求,在行业上也具有里程碑意义。从海量业务中来,专注图计算场景作为面向机器学习的第三代高性能计算平台,腾讯Angel在稀疏数据高维模型的训练上具有独特优势,擅长推荐模型和图网络模型相关领域。当前业界主流的大规模图计算系统主要有Facebook的Big Graph、Power graph、Data bricks的 Spark GraphX等,但这些系统并不都支持图挖掘、图表示学习、图神经网络的三大类型算法。据腾讯Angel开发负责人肖品介绍,腾讯Angel从腾讯海量业务场景中而来,是超大样本和超高维度的机器学习平台。从性能上来看,Angel优于现有图计算系统,能够支持十亿级节点、千亿级边的传统图挖掘算法,百亿边的图神经网络算法需求。它可运行于多任务集群以及公有云环境,具备高效容错恢复机制,也更容易支持新算法,同时,Angel能够较好支持图挖掘、图表示、图神经网络算法,具备图学习的能力。如今,Angel已在QQ、微信支付、腾讯广告、腾讯视频等腾讯旗下产品中广泛应用,并向微众银行等行业合作伙伴全面开放,普遍适用于智能推荐、金融风险评估等图计算业务场景。到开源中去,积极贡献社区发布仅一年时间,2017年,腾讯Angel就正式开源。2018年8月,腾讯将Angel捐赠给Linux旗下专注人工智能的LF AI基金会,结合基金会成熟的运营,全面升级的 Angel与国际开源社区深入互动,致力于让机器学习技术更易于上手研究及应用。"Angel在2018年加入LF AI基金会进行孵化后,一直按照开源社区的模式进行运营,增长速度非常快,增加了特征工程、自动机器学习等很多新的功能,在Github上增加了超过2000个Star。" Linux Foundation APAC大中华区总监杨轩表示: "Angel是LF AI基金会下最活跃的项目之一,相信不久的将来,Angel将进入LF AI的顶级项目之列。"目前,Angel在GitHub上Star数已超过5300,Fork数超过1300,总共有39位代码贡献者,提交了超过2336个commit。面向未来,大数据、AI和云的深度融合腾讯Angel在深度学习和图计算能力的演变,也与大数据的行业发展方向相契合。据刘煜宏介绍,未来,腾讯大数据将持续发力数据湖、批流统一(批量计算、流线计算的融合)、AI+大数据、云计算+大数据四个主要方向。刘煜宏表示:"AI、云计算与大数据密不可分,Angel从大数据平台到全栈机器学习平台的成长,也验证了这一行业方向。未来我们将把腾讯大数据的能力和技术,与AI、与云做深度融合,进一步落地大数据的价值,更好的助力合作伙伴和用户。"据了解,腾讯大数据星火计划是由腾讯发起、面向大数据爱好者的技术共享体系,基于腾讯大数据10年研发与运营经验,以社区开源、网络课程、线下沙龙、技术峰会等多种形式,充分开放腾讯十多年来在大数据领域的技术积累。本次Angel专场是星火计划的首次线下活动。

妇产科

大数据:发展现状与未来趋势

中国特色社会主义进入新时代,实现中华民族伟大复兴的中国梦开启新征程。党中央决定实施国家大数据战略,吹响了加快发展数字经济、建设数字中国的号角。习近平总书记在十九届中共中央政治局第二次集体学习时的重要讲话中指出:“大数据是信息化发展的新阶段”,并做出了“推动大数据技术产业创新发展、构建以数据为关键要素的数字经济、运用大数据提升国家治理现代化水平、运用大数据促进保障和改善民生、切实保障国家数据安全”的战略部署,为我国构筑大数据时代国家综合竞争新优势指明了方向!今天,我拟回顾大数据的发端、发展和现状,研判大数据的未来趋势,简述我国大数据发展的态势,并汇报我对信息化新阶段和数字经济的认识,以及对我国发展大数据的若干思考和建议。一、大数据的发端与发展从文明之初的“结绳记事”,到文字发明后的“文以载道”,再到近现代科学的“数据建模”,数据一直伴随着人类社会的发展变迁,承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而,直到以电子计算机为代表的现代信息技术出现后,为数据处理提供了自动的方法和手段,人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在经济社会发展方方面面的应用(即信息化),推动数据(信息)成为继物质、能源之后的又一种重要战略资源。“大数据”作为一种概念和思潮由计算领域发端,之后逐渐延伸到科学和商业领域。大多数学者认为,“大数据”这一概念最早公开出现于1998年,美国高性能计算公司SGI的首席科学家约翰.马西(JohnMashey)在一个国际会议报告中指出:随着数据量的快速增长,必将出现数据难理解、难获取、难处理和难组织等四个难题,并用“BigData(大数据)”来描述这一挑战,在计算领域引发思考。2007年,数据库领域的先驱人物吉姆.格雷(JimGray)指出大数据将成为人类触摸、理解和逼近现实复杂系统的有效途径,并认为在实验观测、理论推导和计算仿真等三种科学研究范式后,将迎来第四范式——“数据探索”,后来同行学者将其总结为“数据密集型科学发现”,开启了从科研视角审视大数据的热潮。2012年,牛津大学教授维克托.迈尔-舍恩伯格(ViktorMayer-Schnberger)在其畅销著作《大数据时代(BigData:ARevolutionThatWillTransformHowWeLive,Work,andThink)》中指出,数据分析将从“随机采样”、“精确求解”和“强调因果”的传统模式演变为大数据时代的“全体数据”、“近似求解”和“只看关联不问因果”的新模式,从而引发商业应用领域对大数据方法的广泛思考与探讨。大数据于2012、2013年达到其宣传高潮,2014年后概念体系逐渐成形,对其认知亦趋于理性。大数据相关技术、产品、应用和标准不断发展,逐渐形成了包括数据资源与API、开源平台与工具、数据基础设施、数据分析、数据应用等板块构成的大数据生态系统,并持续发展和不断完善,其发展热点呈现了从技术向应用、再向治理的逐渐迁移。经过多年来的发展和沉淀,人们对大数据已经形成基本共识:大数据现象源于互联网及其延伸所带来的无处不在的信息技术应用以及信息技术的不断低成本化。大数据泛指无法在可容忍的时间内用传统信息技术和软硬件工具对其进行获取、管理和处理的巨量数据集合,具有海量性、多样性、时效性及可变性等特征,需要可伸缩的计算体系结构以支持其存储、处理和分析。大数据的价值本质上体现为:提供了一种人类认识复杂系统的新思维和新手段。就理论上而言,在足够小的时间和空间尺度上,对现实世界数字化,可以构造一个现实世界的数字虚拟映像,这个映像承载了现实世界的运行规律。在拥有充足的计算能力和高效的数据分析方法的前提下,对这个数字虚拟映像的深度分析,将有可能理解和发现现实复杂系统的运行行为、状态和规律。应该说大数据为人类提供了全新的思维方式和探知客观规律、改造自然和社会的新手段,这也是大数据引发经济社会变革最根本性的原因。二、大数据的现状与趋势全球范围内,研究发展大数据技术、运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势。下面将从应用、治理和技术三个方面对当前大数据的现状与趋势进行梳理。一是已有众多成功的大数据应用,但就其效果和深度而言,当前大数据应用尚处于初级阶段,根据大数据分析预测未来、指导实践的深层次应用将成为发展重点。按照数据开发应用深入程度的不同,可将众多的大数据应用分为三个层次。第一层,描述性分析应用,是指从大数据中总结、抽取相关的信息和知识,帮助人们分析发生了什么,并呈现事物的发展历程。如美国的DOMO公司从其企业客户的各个信息系统中抽取、整合数据,再以统计图表等可视化形式,将数据蕴含的信息推送给不同岗位的业务人员和管理者,帮助其更好地了解企业现状,进而做出判断和决策。第二层,预测性分析应用,是指从大数据中分析事物之间的关联关系、发展模式等,并据此对事物发展的趋势进行预测。如微软公司纽约研究院研究员DavidRothschild通过收集和分析赌博市场、好莱坞证券交易所、社交媒体用户发布的帖子等大量公开数据,建立预测模型,对多届奥斯卡奖项的归属进行预测。2014和2015年,均准确预测了奥斯卡共24个奖项中的21个,准确率达87.5%。第三层,指导性分析应用,是指在前两个层次的基础上,分析不同决策将导致的后果,并对决策进行指导和优化。如无人驾驶汽车分析高精度地图数据和海量的激光雷达、摄像头等传感器的实时感知数据,对车辆不同驾驶行为的后果进行预判,并据此指导车辆的自动驾驶。当前,在大数据应用的实践中,描述性、预测性分析应用多,决策指导性等更深层次分析应用偏少。一般而言,人们做出决策的流程通常包括:认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。例如:第一层次的描述性分析中,计算机仅负责将与现状相关的信息和知识展现给人类专家,而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深,计算机承担的任务越多、越复杂,效率提升也越大,价值也越大。然而,随着研究应用的不断深入,人们逐渐意识到前期在大数据分析应用中大放异彩的深度神经网络尚存在基础理论不完善、模型不具可解释性、鲁棒性较差等问题。因此,虽然应用层次最深的决策指导性应用,当前已在人机博弈等非关键性领域取得较好应用效果,但是,在自动驾驶、政府决策、军事指挥、医疗健康等应用价值更高,且与人类生命、财产、发展和安全紧密关联的领域,要真正获得有效应用,仍面临一系列待解决的重大基础理论和核心技术挑战。在此之前,人们还不敢、也不能放手将更多的任务交由计算机大数据分析系统来完成。这也意味着,虽然已有很多成功的大数据应用案例,但还远未达到我们的预期,大数据应用仍处于初级阶段。未来,随着应用领域的拓展、技术的提升、数据共享开放机制的完善,以及产业生态的成熟,具有更大潜在价值的预测性和指导性应用将是发展的重点。二是大数据治理体系远未形成,特别是隐私保护、数据安全与数据共享利用效率之间尚存在明显矛盾,成为制约大数据发展的重要短板,各界已经意识到构建大数据治理体系的重要意义,相关的研究与实践将持续加强。随着大数据作为战略资源的地位日益凸显,人们越来越强烈地意识到制约大数据发展最大的短板之一就是:数据治理体系远未形成,如数据资产地位的确立尚未达成共识,数据的确权、流通和管控面临多重挑战;数据壁垒广泛存在,阻碍了数据的共享和开放;法律法规发展滞后,导致大数据应用存在安全与隐私风险;等等。如此种种因素,制约了数据资源中所蕴含价值的挖掘与转化。其中,隐私、安全与共享利用之间的矛盾问题尤为凸显。一方面,数据共享开放的需求十分迫切。近年来人工智能应用取得的重要进展,主要源于对海量、高质量数据资源的分析和挖掘。而对于单一组织机构而言,往往靠自身的积累难以聚集足够的高质量数据。另外,大数据应用的威力,在很多情况下源于对多源数据的综合融合和深度分析,从而获得从不同角度观察、认知事物的全方位视图。而单个系统、组织的数据往往仅包含事物某个片面、局部的信息,因此,只有通过共享开放和数据跨域流通才能建立信息完整的数据集。然而,另一方面,数据的无序流通与共享,又可能导致隐私保护和数据安全方面的重大风险,必须对其加以规范和限制。例如,鉴于互联网公司频发的、由于对个人数据的不正当使用而导致的隐私安全问题,欧盟制定了“史上最严格的”数据安全管理法规《通用数据保护条例》(GeneralDataProtectionRegulation,GDPR),并于2018年5月25日正式生效。《条例》生效后,Facebook和谷歌等互联网企业即被指控强迫用户同意共享个人数据而面临巨额罚款,并被推上舆论的风口浪尖。2020年1月1日,被称为美国“最严厉、最全面的个人隐私保护法案”——《加利福利亚消费者隐私法案》(CCPA)将正式生效。CCPA规定了新的消费者权利,旨在加强消费者隐私权和数据安全保护,涉及企业收集的个人信息的访问、删除和共享,企业负有保护个人信息的责任,消费者控制并拥有其个人信息,这是美国目前最具典型意义的州隐私立法,提高了美国保护隐私的标准。在这种情况下,过去利用互联网平台中心化搜集用户数据,实现平台化的精准营销的这一典型互联网商业模式将面临重大挑战。我国在个人信息保护方面也开展了较长时间的工作,针对互联网环境下的个人信息保护,制定了《全国人民代表大会常务委员会关于加强网络信息保护的决定》《电信和互联网用户个人信息保护规定》《全国人民代表大会常务委员会关于维护互联网安全的决定》和《消费者权益保护法》等相关法律文件。特别是2016年11月7日,全国人大常委会通过的《中华人民共和国网络安全法》中明确了对个人信息收集、使用及保护的要求,并规定了个人对其个人信息进行更正或删除的权利。2019年,中央网信办发布了《数据安全管理办法(征求意见稿)》,向社会公开征求意见,明确了个人信息和重要数据的收集、处理、使用和安全监督管理的相关标准和规范。相信这些法律法规将在促进数据的合规使用、保障个人隐私和数据安全等方面发挥不可或缺的重要作用。然而,从体系化、确保一致性、避免碎片化考虑,制订专门的数据安全法、个人信息保护法是必要的。另一方面,我们也应看到,这些法律法规也将在客观上不可避免地增加数据流通的成本、降低数据综合利用的效率。如何兼顾发展和安全,平衡效率和风险,在保障安全的前提下,不因噎废食,不对大数据价值的挖掘利用造成过分的负面影响,是当前全世界在数据治理中面临的共同课题。近年来,围绕大数据治理这一主题及其相关问题,国际上已有不少成功的实践和研究探索工作,诸如在国家层面推出的促进数据共享开放、保障数据安全和保护公民隐私的相关政策和法规,针对企业机构的数据管理能力评估和改善,面向数据质量保证的方法与技术,促进数据互操作的技术规范和标准等。然而,考察当前的研究和实践,仍存在三个方面的主要问题。一是大数据治理概念的使用相对“狭义”,研究和实践大都以企业组织为对象,仅从个体组织的角度考虑大数据治理的相关问题,这与大数据跨界流动的迫切需求存在矛盾,限制了大数据价值的发挥。二是现有研究实践对大数据治理内涵的理解尚未形成共识,不同研究者从流程设计、信息治理和数据管理应用等不同视角,给出了大数据治理的不同定义,共识的形成尚有待时日!三是大数据治理相关的研究实践多条线索并行,关联性、完整性和一致性不足。诸如,国家层面的政策法规和法律制定等较少被纳入大数据治理的视角;数据作为一种资产的地位仍未通过法律法规予以确立,难以进行有效的管理和应用;大数据管理已有不少可用技术与产品,但还缺乏完善的多层级管理体制和高效管理机制;如何有机结合技术与标准,建立良好的大数据共享与开放环境仍需要进一步探索。缺少系统化设计,仅仅在已有的相关体系上进行扩展和延伸,可能会导致数据治理的“碎片化”和一致性缺失等等。当前,各界已经普遍认识到了大数据治理的重要意义,大数据治理体系建设已经成为大数据发展重点,但仍处在发展的雏形阶段,推进大数据治理体系建设将是未来较长一段时间内需要持续努力的方向。三是数据规模高速增长,现有技术体系难以满足大数据应用的需求,大数据理论与技术远未成熟,未来信息技术体系将需要颠覆式创新和变革。近年来,数据规模呈几何级数高速成长。据国际信息技术咨询企业国际数据公司(IDC)的报告,2020年全球数据存储量将达到44ZB(1021),到2030年将达到2500ZB。当前,需要处理的数据量已经大大超过处理能力的上限,从而导致大量数据因无法或来不及处理,而处于未被利用、价值不明的状态,这些数据被称为“暗数据”。据国际商业机器公司(IBM)的研究报告估计,大多数企业仅对其所有数据的1%进行了分析应用。近年来,大数据获取、存储、管理、处理、分析等相关的技术已有显著进展,但是大数据技术体系尚不完善,大数据基础理论的研究仍处于萌芽期。首先,大数据定义虽已达成初步共识,但许多本质问题仍存在争议,例如:数据驱动与规则驱动的对立统一、“关联”与“因果”的辩证关系、“全数据”的时空相对性、分析模型的可解释性与鲁棒性等;其次,针对特定数据集和特定问题域已有不少专用解决方案,是否有可能形成“通用”或“领域通用”的统一技术体系,仍有待未来的技术发展给出答案;其三,应用超前于理论和技术发展,数据分析的结论往往缺乏坚实的理论基础,对这些结论的使用仍需保持谨慎态度。推演信息技术的未来发展趋势,较长时期内仍将保持渐进式发展态势,随技术发展带来的数据处理能力的提升将远远落后于按指数增长模式快速递增的数据体量,数据处理能力与数据资源规模之间的“剪刀差”将随时间持续扩大,大数据现象将长期存在。在此背景下,大数据现象倒逼技术变革,将使得信息技术体系进行一次重构,这也带来了颠覆式发展的机遇。例如,计算机体系结构以数据为中心的宏观走向和存算一体的微观走向,软件定义方法论的广泛采用,云边端融合的新型计算模式等;网络通信向宽带、移动、泛在发展,海量数据的快速传输和汇聚带来的网络的Pb/s级带宽需求,千亿级设备联网带来的Gb/s级高密度泛在移动接入需求;大数据的时空复杂度亟需在表示、组织、处理和分析等方面的基础性原理性突破,高性能、高时效、高吞吐等极端化需求呼唤基础器件的创新和变革;软硬件开源开放趋势导致产业发展生态的重构;等等。三、大数据与数字经济大数据是信息技术发展的必然产物,更是信息化进程的新阶段,其发展推动了数字经济的形成与繁荣。信息化已经历了两次高速发展的浪潮,始于上世纪80年代,随个人计算机大规模普及应用所带来的以单机应用为主要特征的数字化(信息化1.0),及始于上世纪90年代中期,随互联网大规模商用进程所推动的以联网应用为主要特征的网络化(信息化2.0)。当前,我们正在进入以数据的深度挖掘和融合应用为主要特征的智能化阶段(信息化3.0)。在“人机物”三元融合的大背景下,以“万物均需互联、一切皆可编程”为目标,数字化、网络化和智能化呈融合发展新态势。在信息化发展历程中,数字化、网络化和智能化是三条并行不悖的主线。数字化奠定基础,实现数据资源的获取和积累;网络化构建平台,促进数据资源的流通和汇聚;智能化展现能力,通过多源数据的融合分析呈现信息应用的类人智能,帮助人类更好地认知复杂事物和解决问题。信息化新阶段开启的另一个重要表征是信息技术开始从助力经济发展的辅助工具向引领经济发展的核心引擎转变,进而催生一种新的经济范式—“数字经济”。数字经济是指以数字化知识和信息为关键生产要素、以现代信息网络为重要载体、以信息通信技术的有效使用为效率提升和经济结构优化的重要推动力的一系列经济活动,是以新一代信息技术和产业为依托,继农业经济、工业经济之后的新经济形态。从构成上看,农业经济属单层结构,以农业为主,配合以其他行业,以人力、畜力和自然力为动力,使用手工工具,以家庭为单位自给自足,社会分工不明显,行业间相对独立;工业经济是两层结构,即提供能源动力和行业制造设备的装备制造产业,以及工业化后的各行各业,并形成分工合作的工业体系。数字经济则可分为三个层次:提供核心动能的信息技术及其装备产业、深度信息化的各行各业以及跨行业数据融合应用的数据增值产业。当前,数字经济正处于成型展开期,将进入信息技术引领经济发展的爆发期、黄金期!从另一个视角来看,如果说过去20多年,互联网高速发展引发了一场社会经济的“革命”,深刻地改变了人类社会,现在可以看到,互联网革命的上半场已经结束。上半场的主要特征是“2C”(面向最终用户),主战场是面向个人提供社交、购物、教育、娱乐等服务,可称为“消费互联网”。而互联网革命的下半场正在开启,其主要特征将是“2B”(面向组织机构),重点在于促进供给侧的深刻变革,互联网应用将面向各行业,特别是制造业,以优化资源配置、提质增效为目标,构建以工业物联为基础和工业大数据为要素的工业互联网。作为互联网发展的新领域,工业互联网是新一代信息技术与生产技术深度融合的产物,它通过人、机、物的深度互联,全要素、全产业链、全价值链的全面链接,推动形成新的工业生产制造和服务体系。当前,新一轮工业革命正在拉开帷幕,在全球范围内不断颠覆传统制造模式、生产组织方式和产业形态,而我国正处于由数量和规模扩张向质量和效益提升转变的关键期,需要抓住历史机遇期,促进新旧动能转换,形成竞争新优势。我国是制造大国和互联网大国,推动工业互联网创新发展具备丰富的应用场景、广阔的市场空间和巨大的推进动力。数字经济未来发展呈现如下趋势:一是以互联网为核心的新一代信息技术正逐步演化为人类社会经济活动的基础设施,并将对原有的物理基础设施完成深度信息化改造和软件定义,在其支撑下,人类极大地突破了沟通和协作的时空约束,推动平台经济、共享经济等新经济模式快速发展。以平台经济中的零售平台为例,百货大楼在前互联网时代对促进零售业发展起到了重要作用。而从上世纪九十年代中后期开始,伴随互联网的普及,电子商务平台逐渐兴起。与要求供需方必须在同一时空达成交易的百货大楼不同,电子商务平台依托互联网,将遍布全球各个角落的消费者、供货方连接在一起,并聚合物流、支付、信用管理等配套服务,突破了时空约束,大幅减少了中间环节,降低了交易成本,提高了交易效率。按阿里研究院的报告,过去十年间,中国电子商务规模增长了10倍,并呈加速发展趋势。二是各行业工业互联网的构建将促进各种业态围绕信息化主线深度协作、融合,在完成自身提升变革的同时,不断催生新的业态,并使一些传统业态走向消亡。如随着无人驾驶汽车技术的成熟和应用,传统出租车业态将可能面临消亡。其他很多重复性的、对创新创意要求不高的传统行业也将退出历史舞台。2017年10月,《纽约客》杂志报道了剑桥大学两名研究者对未来365种职业被信息技术淘汰的可能性分析,其中电话推销员、打字员、会计等职业高居榜首。三是在信息化理念和政务大数据的支撑下,政府的综合管理服务能力和政务服务的便捷性持续提升,公众积极参与社会治理,形成共策共商共治的良好生态。四是信息技术体系将完成蜕变升华式的重构,释放出远超当前的技术能力,从而使蕴含在大数据中的巨大价值得以充分释放,带来数字经济的爆发式增长。四、我国大数据发展的态势党的十八届五中全会将大数据上升为国家战略。回顾过去几年的发展,我国大数据发展可总结为:“进步长足,基础渐厚;喧嚣已逝,理性回归;成果丰硕,短板仍在;势头强劲,前景光明”。作为人口大国和制造大国,我国数据产生能力巨大,大数据资源极为丰富。随着数字中国建设的推进,各行业的数据资源采集、应用能力不断提升,将会导致更快更多的数据积累。预计到2020年,我国数据总量有望达到8000EB(1018),占全球数据总量的21%,将成为名列前茅的数据资源大国和全球数据中心。我国互联网大数据领域发展态势良好,市场化程度较高,一些互联网公司建成了具有国际领先水平的大数据存储与处理平台,并在移动支付、网络征信、电子商务等应用领域取得国际先进甚至领先的重要进展。然而,大数据与实体经济融合还远不够,行业大数据应用的广度和深度明显不足,生态系统亟待形成和发展。随着政务信息化的不断发展,各级政府积累了大量与公众生产生活息息相关的信息系统和数据,并成为最具价值数据的保有者。如何盘活这些数据,更好地支撑政府决策和便民服务,进而引领促进大数据事业发展,是事关全局的关键。2015年9月,国务院发布《促进大数据发展行动纲要》,其中重要任务之一就是“加快政府数据开放共享,推动资源整合,提升治理能力”,并明确了时间节点,2017年跨部门数据资源共享共用格局基本形成;2018年建成政府主导的数据共享开放平台,打通政府部门、企事业单位间的数据壁垒,并在部分领域开展应用试点;2020年实现政府数据集的普遍开放。随后,国务院和国务院办公厅又陆续印发了系列文件,推进政务信息资源共享管理、政务信息系统整合共享、互联网+政务服务试点、政务服务一网一门一次改革等,推进跨层级、跨地域、跨系统、跨部门、跨业务的政务信息系统整合、互联、协同和数据共享,用政务大数据支撑“放管服”改革落地,建设数字政府和智慧政府。目前,我国政务领域的数据开放共享已取得了重要进展和明显效果。例如:浙江省推出的“最多跑一次”改革,是推进供给侧结构性改革、落实“放管服”改革、优化营商环境的重要举措。以衢州市不动产交易为例,通过设立综合窗口再造业务流程,群众由原来跑国土、住建、税务3个窗口8次提交3套材料,变为只跑综合窗口1个窗口1次提交1套材料,效率大幅提高。据有关统计,截至2019年上半年,我国已有82个省级、副省级和地级政府上线了数据开放平台,涉及41.93%的省级行政区、66.67%的副省级城市和18.55%的地级城市。我国已经具备加快技术创新的良好基础。在科研投入方面,前期通过国家科技计划在大规模集群计算、服务器、处理器芯片、基础软件等方面系统性部署了研发任务,成绩斐然。“十三五”期间在国家重点研发计划中实施了“云计算和大数据”重点专项。当前科技创新2030大数据重大项目正在紧锣密鼓地筹划、部署中。我国在大数据内存计算、协处理芯片、分析方法等方面突破了一些关键技术,特别是打破“信息孤岛”的数据互操作技术和互联网大数据应用技术已处于国际领先水平;在大数据存储、处理方面,研发了一些重要产品,有效地支撑了大数据应用;国内互联网公司推出的大数据平台和服务,处理能力跻身世界前列。国家大数据战略实施以来,地方政府纷纷响应联动、积极谋划布局。国家发改委组织建设11个国家大数据工程实验室,为大数据领域相关技术创新提供支撑和服务。发改委、工信部、中央网信办联合批复贵州、上海、京津冀、珠三角等8个综合试验区,正在加快建设。各地方政府纷纷出台促进大数据发展的指导政策、发展方案、专项政策和规章制度等,使大数据发展呈蓬勃之势。然而,我们也必须清醒地认识到我国在大数据方面仍存在一系列亟待补上的短板。一是大数据治理体系尚待构建。首先,法律法规滞后。目前,我国尚无真正意义上的数据管理法规,只在少数相关法律条文中有涉及到数据管理、数据安全等规范的内容,难以满足快速增长的数据管理需求。其次,共享开放程度低。推动数据资源共享开放,将有利于打通不同部门和系统的壁垒,促进数据流转,形成覆盖全面的大数据资源,为大数据分析应用奠定基础。我国政府机构和公共部门已经掌握巨大的数据资源,但存在“不愿”、“不敢”和“不会”共享开放的问题。例如:在“最多跑一次”改革中,由于技术人员缺乏,政务业务流程优化不足,涉及部门多、链条长,长期以来多头管理、各自为政等问题,导致很多地区、乡镇的综合性窗口难建立、数据难流动、业务系统难协调。同时,由于办事流程不规范,网上办事大厅指南五花八门,以至于同一个县市办理同一项事件,需要的材料、需要集成的数据在各乡镇的政务审批系统里却各有不同,造成群众不能一次性获得准确的相关信息而需要“跑多次”。当前,我国的政务数据共享开放进程,相对于《行动纲要》明确的时间节点,已明显落后,且数据质量堪忧。不少地方的政务数据开放平台,仍然存在标准不统一、数据不完整、不好用甚至不可用等问题。政务数据共享开放意义重大,仍需要坚持不懈地持续推进。此外,在数据共享与开放的实施过程中,各地还存在片面强调数据物理集中的“一刀切”现象,对已有信息化建设投资保护不足,造成新的浪费。第三,安全隐患增多。近年来,数据安全和隐私数据泄露事件频发,凸显大数据发展面临的严峻挑战。在大数据环境下,数据在采集、存储、跨境跨系统流转、利用、交易和销毁等环节的全生命周期过程中,所有权与管理权分离,真假难辨,多系统、多环节的信息隐性留存,导致数据跨境跨系统流转追踪难、控制难,数据确权和可信销毁也更加困难。二是核心技术薄弱。基础理论与核心技术的落后导致我国信息技术长期存在“空心化”和“低端化”问题,大数据时代需避免此问题在新一轮发展中再次出现。近年来,我国在大数据应用领域取得较大进展,但是基础理论、核心器件和算法、软件等层面,较之美国等技术发达国家仍明显落后。在大数据管理、处理系统与工具方面,我国主要依赖国外开源社区的开源软件,然而,由于我国对国际开源社区的影响力较弱,导致对大数据技术生态缺乏自主可控能力,成为制约我国大数据产业发展和国际化运营的重大隐患。三是融合应用有待深化。我国大数据与实体经济融合不够深入,主要问题表现在:基础设施配置不到位,数据采集难度大;缺乏有效引导与支撑,实体经济数字化转型缓慢;缺乏自主可控的数据互联共享平台等。当前,工业互联网成为互联网发展的新领域,然而仍存在不少问题:政府热、企业冷,政府时有“项目式”、“运动式”推进,而企业由于没看到直接、快捷的好处,接受度低;设备设施的数字化率和联网率偏低;大多数大企业仍然倾向打造难以与外部系统交互数据的封闭系统,而众多中小企业数字化转型的动力和能力严重不足;国外厂商的设备在我国具有垄断地位,这些企业纷纷推出相应的工业互联网平台,抢占工业领域的大数据基础服务市场。五、若干思考和建议最后,我想基于自己在大数据领域的研究实践,汇报若干思考和建议。一家之见,仅供参考。(一)大力发展行业大数据应用当前,我国互联网领域的大数据应用市场化程度高、发展较好,但行业应用广度和深度明显不足,生态系统亟待形成和发展。事实上,与实体经济紧密结合的行业大数据应用蕴含了更加巨大的发展潜力和价值。以制造业为例,麦肯锡研究报告称:制造企业在利用大数据技术后,其生产成本能够降低10%—15%。而大数据技术对制造业的影响远非成本这一个方面。利用源于产品生命周期中市场、设计、制造、服务、再利用等各个环节数据,制造业企业可以更加精细、个性化地了解客户需求;建立更加精益化、柔性化、智能化的生产系统;创造包括销售产品、服务、价值等多样的商业模式;并实现从应激式到预防式的工业系统运转管理模式的转变。制造业是国民经济不可或缺的一环,也是一个国家竞争力背后的强大力量支撑。我国制造业位居世界第一,却大而不强。企业创新能力不足,高端和高价值产品欠缺,在国际产业分工中处于中低端,大力推动制造业大数据应用的发展,对产业升级转型至关重要。当前,我国不同行业领域正在积极推进数字化转型、网络化重构、智能化提升,推动行业大数据应用,也是推进数字中国建设的重要途径和基础。(二)建立系统全面的大数据治理体系大数据是数字经济的关键要素,强大的信息技术产业和全面深度信息化赋能的传统行业无疑是数字经济的基础!大数据治理须从营造大数据产业发展环境的视角予以全面、系统化考虑!我以为,在一国之范围内,大数据治理体系建设涉及国家、行业和组织三个层次,至少包含数据的资产地位确立、管理体制机制、共享与开放、安全与隐私保护等四方面内容,需要从制度法规、标准规范、应用实践和支撑技术等视角多管齐下,提供支撑。在国家层次,重点是要在法律法规层面明确数据的资产地位,奠定数据确权、流通、交易和保护的基础,制定促进数据共享开放的政策法规和标准规范,促进政务数据和行业数据的融合应用,并且出台数据安全与隐私保护的法律法规,保障国家、组织和个人的数据安全。在行业层次,重点是要在国家相关法律法规框架下,充分考虑本行业中企业的共同利益与长效发展,建立规范行业数据管理的组织机构和数据管控制度,制定行业内数据共享与开放的规则和技术规范,促进行业内数据的共享交换和融合应用。在组织层次,重点是要提升企业对数据全生命期的管理能力,促进企业内部和企业间的数据流通,提升数据变现能力,保障企业自身的数据安全及客户的数据安全和隐私信息。在数据治理体系建设中,数据共享开放是大数据资源建设的前提,在现阶段重要性尤其突出。在平衡数据共享开放和隐私保护、数据安全的关系时,我以为,还是需要强调应用先行、安全并重的原则。数据共享开放不应被孤立看待,可能需要综合考虑数据的使用场合及数据主体的权益。如,数据集中管理可能带来保管上的安全问题,然而数据融合才能产生价值,一定程度的集中是趋势所在,也更利于建立更强大可靠的保护机制;多源数据的融合可能导致信息泄露,然而在确知风险前,是否需要因其“可能性”而拒绝技术的应用?数据脱敏仍然可能存在隐私泄露的风险,是否允许个体在知情前提下“用隐私换方便”、“用隐私换治疗换健康”?是否允许使用符合当前“标准”、但无法确保未来一定不出现信息泄露的脱敏方法,并对相关应用予以免责?当然,加强兼顾隐私保护、数据安全和数据流动利用的新技术研发,也非常必要。当前,如安全多方计算、同态加密、联邦学习等技术研发,希望允许拥有数据的各方在不向其他组织或个人公开数据中所含敏感信息的情况下,实现数据的融合利用。虽然这些技术尚处于发展的初级阶段,但因其广阔的应用前景而受到普遍关注。另外,打破信息孤岛、盘活数据存量是当前一项紧迫的任务,而在此过程中,不宜过分强调物理集中,而应将逻辑互联作为打通信息“孤岛”的手段,逻辑互联先行,物理集中跟进。在数据共享体系建设中,需要在一定层级上构建物理分散、逻辑统一、管控可信、标准一致的政务信息资源共享交换体系,在不改变现有信息系统与数据资源的所有权及管理格局的前提下,明晰责权利,即:数据应用部门提需求、数据拥有部门做响应、交换平台管理部门保流转。同时,集约化的政务云建设正成为政府、企业建设新的信息系统的首选方案,如何在新一轮建设热潮中,从规划、立项审批、建设、审计等环节以及方案指导、标准规范和技术支持等方面给予全方位保障,尽可能避免新“孤岛”的产生,也是一项重大挑战。(三)以开源为基础构建自主可控的大数据产业生态在大数据时代,软件开源和硬件开放已成为不可逆的趋势,掌控开源生态,已成为国际产业竞争的焦点。建议采用“参与融入、蓄势引领”的开源推进策略,一方面鼓励我国企业积极“参与融入”国际成熟的开源社区,争取话语权;另一方面,也要在建设基于中文的开源社区方面加大投入,汇聚国内软硬件资源和开源人才,打造自主可控开源生态,在学习实践中逐渐成长壮大,伺机实现引领发展。中文开源社区的建设,需要国家在开源相关政策法规和开源基金会制度建立方面给予支持。此外,在开源背景下,对“自主可控”的内涵定义也有待更新,不一定强调硬件设计和软件代码的所有权,更多应体现在对硬件设计方案和软件代码的理解、掌握、改进及应用能力。(四)积极推动国际合作并筹划布局跨国数据共享机制2018年11月17日,习近平总书记在APEC工商领导人峰会上发表主旨演讲指出“经济全球化是人类社会发展必经之路”,“各国都是全球合作链条中的一环”。在数字经济快速发展的时代背景下,我国应该积极推动在大数据技术和应用方面的国际合作,建立跨国数据共享机制,与其他国家一起分享数字经济的红利,同时也使我国获得更多发展机遇和更大发展空间,积极促进数字经济下人类利益共同体和命运共同体的构建。当前,我国正在积极推动“一带一路”合作发展。各国在合作的各个领域都将产生大量的数据。建议积极推进跨国的大数据治理合作,在保障数据安全的前提下,促进数据跨境流动,从而形成围绕国家合作各个领域的大数据资源,为数字经济领域的国际合作奠定坚实的基础。“一带一路”沿线大都属发展中国家,无论技术还是经济水平较之发达国家都有明显差距。而数字经济这一新经济形态的成型发展将带给包括中国在内的各发展中国家经济转型发展的历史性机遇期。经济后发国家有机会在新经济的全球垄断性格局形成之前,与发达国家站在同一起跑线上,并且由于没有“路径依赖”所带来的历史包袱,也有可能在新一轮的竞争中占有优势。(五)未雨绸缪,防范大数据发展可能带来的新风险大数据发展可能导致一系列新的风险。例如,数据垄断可能导致数据“黑洞”现象。一些企业凭借先发展起来的行业优势,不断获取行业数据,但却“有收无放”,呈现出数据垄断的趋势。这种数据垄断不仅不利于行业的健康发展,而且有可能对国家安全带来冲击和影响。又如,数据和算法可能导致人们对其过分“依赖”及社会“被割裂”等伦理问题。大数据分析算法根据各种数据推测用户的偏好并推荐内容,在带来便利的同时,也导致人们只看到自己“希望看到的”信息,从而使人群被割裂为多个相互之间难以沟通、理解的群体,其可能引发的社会问题将是难以“亡羊补牢”的。需要看到,以互联网为代表的新一代信息技术所带来的这场社会经济“革命”,在广度、深度和速度上都将是空前的,也会是远远超出我们从工业社会获得的常识和认知、远远超出我们的预期的,适应信息社会的个体素质的养成、满足未来各种新兴业态就业需求的合格劳动者的培养,将是我们面临的巨大挑战!唯有全民提升对大数据的正确认知,具备用大数据思维认识和解决问题的基本素质和能力,才有可能积极防范大数据带来的新风险;唯有加快培养适应未来需求的合格人才,才有可能在数字经济时代形成国家的综合竞争力。我的汇报结束,谢谢大家!(主讲人系中国人民解放军军事科学院副院长)名词解释:API:应用编程接口(ApplicationProgrammingInterface)的首字母缩写,是指某软件系统或平台为其他应用软件系统提供的一组函数,通过调用这些函数,其他应用软件系统可以使用此软件系统或平台的部分功能或访问某些数据。开源平台:“开源”是开放源代码的简称,开源平台是指支持开源社区活动,管理开放源代码,向所有开源社区参与者提供相关服务的软件平台(平台基于互联网构建并通过互联网通过服务)。任何人都可以获得开源软件的源代码并加以修改,并在某个预先约定的开源协议限制范围内发布修改后的新版本。结合上下文,这里的开源平台是指提供大数据管理、处理、分析等方面能力的开源软件的软件平台。可伸缩的计算体系结构:可伸缩英文为scalable,指一个计算系统的能力和性能随应用负载的增加,通过极少的改动或配置甚至只是简单的硬件资源增加,而保持线性增长的能力,是表征计算系统处理能力的一个重要的设计指标。可伸缩的计算体系结构是计算系统体系结构设计追求的重要指标,软件定义、虚拟化、资源池化等方法和技术常用于可伸缩性的实现。鲁棒性:鲁棒是英文Robust的音译,也就是健壮的意思,因此鲁棒性也被翻译为健壮性。鲁棒性一般用于描述一个系统在异常或极端情况下仍然可以工作的能力。结合上下文,这里谈及的大数据分析模型的鲁棒性是指在数据存在错误、噪音、缺失,甚至在恶意数据攻击等异常情况下,模型仍然能得到较为准确结论的能力。数据互操作:数据互操作是指不同信息系统之间可以通过网络连接对彼此的数据进行访问,包括对其他系统数据的读取与写入。数据互操作是实现数据共享的基础。“全数据”:“全数据”也称“全量数据”,是与“采样数据”相对的概念。传统的数据分析受限于数据采集、存储、处理的成本,一般都仅对问题相关的所有数据进行局部采样,并基于采样获得的部分数据进行分析,得出结论,结论的准确性与采样方法以及对被采样数据的统计假设密切相关。而大数据时代,人们开始提出“全数据”的概念,即,并不采样,而是将与问题相关的所有数据全部输入到分析模型中分析。这种方法避免了因采样而可能带来的误差,但是也增加了计算成本。云边端融合:云是指云计算中心,边是指边缘计算设备,端是指终端设备。以智能家居为例,智能电视、冰箱、空调等直接与用户交互的设备是“端”,通过互联网连接的异地的云计算平台是“云”,而安装在每个家庭的智能家居中控服务器是“边”。云计算中心具有强大的计算存储能力,一般用于复杂的数据计算处理;终端设备距离最终用户较近,对用户的操作响应快,一般负责与用户进行交互;边缘计算设备介于“云”和“端”之间,负责对端所采集的数据做本地化处理,同时将需要更强大计算能力支持的任务和数据发往云计算中心处理,并将“云”返回的结果提供给端设备。云边端融合是一种“云”、“边”、“端”不同计算设备各司其职,密切协同且优势互补的新型计算模式。宽带、移动、泛在的网络通信:“宽带”是指通信速率高,海量大数据的高速传输需求推动骨干网络向Pb/s发展;“移动”是指移动通信;“泛在”是指无所不在。宽带、移动、泛在通信是指:未来大量移动终端和物联网设备通过无所不在的接入网络接入主干网并通过高速主干网络进行通信。安全多方计算:安全多方计算是为解决在保护隐私信息以及没有可信第三方的前提下,一组互不信任的参与方之间的协同计算问题而提出的理论框架。安全多方计算能够同时确保输入的隐私性和计算的正确性,在无可信第三方的前提下通过数学理论保证参与计算的各方成员输入信息不暴露,且同时能够获得准确的运算结果。此项技术的研究尚处于初级阶段。同态加密:同态加密是一种密码学技术,其核心在于保证:对经过同态加密的数据进行处理(如:运行某种数据分析算法)后得到输出,将这一输出进行解密,其结果与用同一方法(即上述数据分析算法)处理未加密的原始数据得到的输出结果一致。同态加密技术使得数据拥有者可以将数据加密后交给第三方处理,从第三方获得处理结果后,对此结果进行解密便可获得所期望的结果。如此一来,数据拥有者就不必担心因将原始数据交给第三方而存在的隐私泄露风险,同时又能获得第三方提供的数据分析服务。此项技术的研究尚处于初级阶段。联邦学习:联邦机器学习是一个多组织协同的机器学习框架,使得一个组织在不共享原始数据的情况下,可以利用其他组织数据中所蕴含的信息和知识,建立协同的机器学习模型。此模型比各组织仅利用本组织内部数据而训练的机器学习模型有更高的性能。此项技术的研究尚处于初级阶段。ZB、EB、Pb/s、Gb/s:在计算机领域,一个二进制位称为一个比特,一般用小写b表示;而8个二进制位称一个字节,用大写B表示。简言之:1B=8b。计算数据量或数据所需存储空间大小时,习惯用字节为单位(用B表示)。1KB=1024B,1MB=1024KB,1GB=1024MB(通常简记为109),1TB=1024GB,1PB=1024TB,1EB=1024PB,1ZB=1024EB。1EB约等于10亿GB,而1ZB约等于1万亿GB。假设一首长为3分钟的歌曲录制成MP3文件(44K/320kbps音质),大小约为8MB,那么1ZB的数据存储空间可存储MP3格式歌曲140万亿多首,如果全部听一遍,需要8亿多年。计算网络传输速率时习惯上用比特每秒为单位(用b/s表示)。1Pb/S和1Gb/S分别代表1秒钟传输的数据是1P(1000万亿)个比特和1G(10亿)个比特。网络速率1Gb/S(此处是小写b)的情况下,下载一个2GB(此处是大写B)的电影,需要16秒;而网络速率1Pb/S的情况下,仅需要0.016毫秒。来源: 中国人大网

快乐星

互联网进化史--之大数据

互联网数据是价值基础,就像水电一样,是一切之源,特别是移动互联网、万物互联时代来临了,数据就是海量的,数据价值就是质的飞跃。一、社交数据(腾讯掌握)你的朋友圈,跟谁交朋友,聊了什么,你的生活习惯的方方面面,等于你的生活图谱就可以勾画出来。二、交易数据(阿里巴巴掌握)它可以掌握你基本的财务数据,你的消费能力,消费习惯,你喜欢买什么产品,数据套现最直接。三、行为数据(百度、滴滴、美团掌握)你的知识面,思维动态想法,根据你关注方向进行深度数据挖掘,它可以比你自己更懂你,拓展视界、视野,包括培训学习。LBS数据是每个人物理位置,这是所有数据价值判断依据,这就为什么APP都要拿你们的位置、电话、语音、摄像头等权限。本来根本不用这么多权限,但它就是要预留窗口。数据存储,云端数据(阿里云、腾讯云、百度云)隐私安全就现得十分重要,就像之前“雅虎事件”,点到即止。只做原创,婉谢盗版,请珍重知识产权!!!《电商集合》发布

祸福无有

大数据分析:研究武汉新型肺炎的发展历程

最近武汉发现新型肺炎2019-nCov牵动着大家的心,药店里的口罩就和酒精也是抢购一空。本文将通过对百度资讯中,以“肺炎”一词作为关键词,检索出来所有新闻标题和新闻摘要进行分析,了解新型肺炎相关新闻在互联网上的传播情况。本文使用的工具:编程:Python;爬虫:Scrapy;中文分词:jiebaExcel生成图表、wordclouds生成词云数据源:百度资讯、百度指数1. 新闻采集通过百度资讯,搜索“肺炎”一词,将所有搜索结果收集起来,并且对新闻内容进行去重。去重标准是同一天、同一个新闻媒体、同一个标题、同一个摘要时,将重复内容去除。2. 初步统计简单的对12月起,每天肺炎相关新闻的数量用excel进行了简单的统计。截止到1月23日下午,去重后,共检索到424条新闻。近期最早新闻中出现“肺炎”的字眼,是在2019年12月31日,接着逐渐消退,1月3号再次出现一波小热潮,然后完全消退。第二波大热潮是在2020年1月9日左右,但是热潮很快又退了下去。直到2020年1月16日,肺炎新闻才开始爆发性增长,然后经历1月19日的一个小低谷后,热度迅速上升。大家的感受也应该是在1月20日左右,就发现各种微信群消息里,开始大量的转发武汉发现新型肺炎相关的消息吧。通过百度指数搜索全网对“肺炎”这个关键词的搜索热度,可以看出发展舆论的发展趋势,基本与新闻的数量一致。在12月底开始出现肺炎的新闻,过了月20天后,新型肺炎的新闻才“突然间气势汹汹”的传播开来。3. 热词分析通过对19年12月31日、20年1月9日、20年1月16日这三个比较有标志性的日期,以及20年1月20日往后的每一天,利用NLP(Natural Language Processing,自然语言处理)的工具“jieba”,统计这些日期当天的新闻中,相对于往前日期的新闻内容,出现了哪些新的词语。阶段1:2019年12月31日,进展:不明原因可以看出,此时新闻都还集中在武汉,肺炎还是“不明原因”,部分新闻提到了日后出了名的“华南海鲜市场”,“通报、通知、记者”说明,大家对此事还处于一个较为好奇状态。阶段2:2020年1月3日,进展:事情发酵新增了“患者”、“病毒性”、“诊断” 这样的关键词,说明肺炎已经开始产生了危害。“传言”、“发酵”、“不要”、“相信”这些关键词,说明大家开始产生了恐慌,但是媒体也很理性的让大家不要惊慌,大家不信谣、不传谣。阶段3:2020年1月9日,进展:发现病因“初步判断”、“新型”、“冠状病毒”,代表着导致新型肺炎的元凶已经被初步找到。此事过后,肺炎相关新闻就开始减少。阶段4:2020年1月16日,进展:国际事件我们看到了“日本”、“越南”这样的国外地名的出现,并且有了“隔离”、“传人”这样的词出现。(其实应该是人传人,不过被分词系统分成了两个词)说明了此时肺炎已经“冲出国门,走向国际”,并且引起了国际媒体的注意。但是在国内却依然还未能引起重视。阶段5:2020年1月20日,进展:事件爆发1月20号是肺炎新闻大规模出现的标志点,此时我们看到了“北京”、“深圳”等城市的字眼,国内真 · 一线城市开始有确认的病情了!2020年1月21日至1月23日,进展:持续升级1月21日:终南山院士回归,“口罩”的出现,接着引起了药店、电商网站的各种口罩抢购。“全国”、“首例”、“疑似病例”,说明病情正朝着全国发展。1月22日:重点是“防控工作”,同时出现了“春节”,春运大潮来临。1月23日:“口罩”一词重新出现!对应的新闻是很多药店口罩抢购一空,然后有的良性厂家加班生产,而有的黑心店家却故意哄抬物价!与此同时,阿里京东的电商平台通知,禁止商家涨价。“方案”、“工作委”表明,各地已经开始有了对应肺炎传播的应对措施,是春节前的大好消息!“首例”表明,肺炎在更多地区被发展,传播迅猛。为什么“口罩”、“首例”等关键词重复上榜?因为我写的新词分析算法是,从当天新闻中抽取出热词,然后从过去的所有新闻中,再抽取出热词。然后对比两组热词,找出新增的词。例如“口罩”在短暂的一两天内可能是热点,但是相对比其他一些关键词,如“武汉”、“肺炎”等,“口罩”在过去20多天内的影响力就弱的多了,无缘过去新闻的热词榜。所以,当口罩又火了的时候,新词分析就又发现了它。4. 地区分析利用前文的方法,我们把热词的类型缩小到“地域名词”,再次查看那些关键的时间节点,看看肺炎的地域传播趋势。由于时间仓促,加上用来生成词云的网站无法访问了,无法对程序分析地域名词输出的结果做过多的深入研究和数据过滤,结果仅供参考。阶段1:2019年12月31日,地区:小范围影响此时肺炎的传播,还局限在武汉的华南海鲜市场。注意检索结果有“浙江”,经过分析,是某个媒体在发布新闻后,一直用同一个链接更新最新内容。阶段2:2020年1月3日,地区:小范围影响此阶段并未发现新的地区,说明肺炎还未被发现广泛传播。阶段3:2020年1月9日,地区:小范围影响此阶段出现了两个新的地名“钦州”、“杭州”,本着认真负责的态度,我去看了一下当时的新闻。钦州相关:钦州9名新生儿陆续患肺炎,数名宝妈找月子中心讨说法;杭州相关:武汉不明原因肺炎判定为新型冠状病毒!杭州专家权威解读。钦州月子中心的事件,可能刚好是个巧合。所以我认为这个阶段,从新闻内容来看,肺炎传播范围依然以武汉为主。阶段4:2020年1月16日,地区:亚洲其他国家越南和日本发现了新型肺炎的疫情。但是此时国内其他地方并未有新型疫情的报道。阶段5:2020年1月20日,地区:国内一线城市一线城市北上深广的出现,标志着新型肺炎开始在国内传播。2020年1月21日至1月23日,地区:国内大面积蔓延、海外也逐步蔓延大量的国内外地名出现了新闻内容中,说明新型肺炎蔓延十分的迅速。5. 总结通过对“肺炎”相关的关键词进行新闻检索、数据整理分析,可以有效还原新型肺炎从发现到发展的全流程,并且发现每个阶段不同的特征。最后,放一个产品生命周期的图,如果把新型肺炎当做一款产品,那么它现在就处在快速的成长期,所以千万不能掉以轻心,必须加大防护措施,认真严肃对待。时近年关,正值春运高峰期,人流量大,也希望大家出门尽可能戴口罩,多看新闻关心了解新型肺炎的发展态势,听从社区、公共场所安排,注意身体健康。给大家拜个年 :)本文由 @iCheer 原创发布于人人都是产品经理,未经作者许可,禁止转载。题图来自Unsplash,基于CC0协议。

落鹰峡

揭秘腾讯大数据十年发展历程:从关系型数据库到分布式机器学习

【TechWeb】10月18日消息,近日,腾讯大数据团队详细披露了腾讯大数据十年发展历程,并全面展示了腾讯第三代全栈机器学习平台Angel在大模型数据训练、深度学习、图计算等方面的技术能力。据腾讯大数据负责人刘煜宏介绍,腾讯大数据从2009年开始, 经历离线计算、实时计算与机器学习三个阶段,2009年之前,腾讯主要使用传统的关系型数据库。2009年开始,传统的单机数据库所提供的服务,在系统可扩展性、性价比方面已不再适用腾讯业务爆发式的增长。面对这种变化,腾讯大数据转向分布式,基于开源的Hadoop体系,构建了腾讯第一代大数据平台,并建设离线计算平台,主要发力规模化。腾讯大数据由此进入第一阶段。三年里,腾讯实现了从关系型数据库到自建大数据平台的全面迁移,到2012年,腾讯大数据的单集群规模突破了4400台。2012年,移动互联网爆发,应对业务数据统计及时性、快速性的需求,腾讯大数据从Hadoop转向Spark和Storm体系,在吸收开源技术的基础上,结合腾讯自身的需求进行重写,探索流式计算、秒级采集系统的建设,构建企业级的实时数据分析体系,腾讯大数据发展进入第二阶段。2015年至今,腾讯大数据迈入了第三阶段。随着数据挖掘、数据应用的深入,腾讯大数据再次自我迭代,于2016年推出了自研机器学习平台Angel,专攻复杂计算场景,可进行大规模的数据训练,支撑内容推荐、广告推荐等AI应用场景。它由腾讯与北京大学联合研发,兼顾了工业界的高可用性和学术界的创新性。据腾讯Angel开发负责人肖品介绍,腾讯Angel从腾讯海量业务场景中而来,是超大样本和超高维度的机器学习平台。如今,Angel已在QQ、微信支付、腾讯广告、腾讯视频等腾讯旗下产品中广泛应用,并向微众银行等行业合作伙伴全面开放,普遍适用于智能推荐、金融风险评估等图计算业务场景。2017年,腾讯Angel就正式开源。2018年8月,腾讯将Angel捐赠给Linux旗下专注人工智能的LF AI基金会,结合基金会成熟的运营,全面升级的 Angel与国际开源社区深入互动,致力于让机器学习技术更易于上手研究及应用。