欢迎来到加倍考研网! 北京 上海 广州 深圳 天津
微信二维码
在线客服 40004-98986
推荐适合你的在职研究生专业及院校
国产数据库行业研究与投资机会:宽赛道、高壁垒、新机遇其觉于于

国产数据库行业研究与投资机会:宽赛道、高壁垒、新机遇

如需报告请登录【未来智库】。一、全球产业变局已至,数据库上云成新战场1.1、信息爆发式增长,数据库持续迭代升级 信息体量快速增长,数据库行业景气度持续提高。2018 年 11 月 IDC 白皮书《DataAge 2025》指出,全球数据量总和将从 2018 年的 33ZB 增至 2025 年的 175ZB,信息数据呈快速增长态势。与此同时,随着联网人数持续上升,国内数据体量在未来 7 年将实现复合增速 30%以上的快速增长,并在 2025 年成为与欧洲、中东、非洲、亚太和美国等地区相比体量最大的区域。数据激增促使越来越多的企业正视数据存储、管理与安全,IT 成本成为企业必须面对的问题。此外,数据的爆发式增长、云计算的快速推进、互联网安全事件的频发和全球保守主义的兴起等一系列现实问题都不断推动数据库向前进一步发展。当下,分布式数据库与云数据中心正成为数据新的存储方式。根据 IDC 数据,至 2025 年,全球 49% 已存储数据将存在公共云中。数据库(Database),是指按照数据结构来组织、存储和管理,并且可共享的数据集合软件。随着计算机与网络通信技术的不断发展,数据在组织与管理方面不断地面临着新的形势与挑战,同时也推动着数据库架构与技术不断升级迭代。从上世纪 50 年代,UNIVAC 商用电脑的打孔式存储,到 IBM 推出关系型数据库模型理论;从 Oracle 数据库成立并一家独大,到云计算时代数据库上云成为趋势,数据库在过去 70 年经历了数次变革与洗牌。根据产品形态与模式的不同,可将数据库发展分为 4 个阶段。阶段一:从穿孔卡片,到网状与层次数据库变迁。70 多年前,负责数据处理的主要是物理穿孔卡片。1951 年,第一台商用电脑 UNIVAC 交付至美国人口普查局,当时的数据管理,是通过对所有穿孔卡片上的穿孔情况进行操作,以达到储存和处理目的。1956 年,IBM 生产了第一个磁盘驱动器,驱动器装备 50 个盘片,直径2 英尺,储存 5MB 数据。磁盘驱动器的出现,标志着数据存储进入随机存取时代。在此基础之上,陆续诞生了网状数据库 IDS 和层次数据库 IMS。阶段二:确立标准,关系型商业数据库全面推广。1970 年 IBM 研究员 E.F.Codd在论文中提出关系模型概念,为之后 30 年关系型数据库奠定了理论基础,随后诞生了数据库龙头 Oracle、Informix、Sybase 和 SQL Server 等公司。2000 年,全球数据库产业进行了第一轮整合浪潮,并形成 Oracle、Microsoft 和 IBM 三巨头的竞争格局。阶段三:Web 2.0 兴起,NoSQL 数据库应运而生。NoSQL,泛指非关系型数据库。随着 21 世纪初互联网泡沫破灭,新技术与新理念催生出了一批新的互联网巨头,如 Google、Amazon、阿里巴巴和 Facebook 等。与此同时,网络产生的数据量也呈现爆发式增长。传统的关系数据库在应付海量,特别是超大规模和高并发 SNS类的动态网站数量时显得力不从心,为了解决数据爆发带来的挑战,非关系型数据库应时而生,典型代表有如 Hbase、MongoDB、Redis、BigTable 等。阶段四:云计算蓬勃发展,数据库上云成趋势。云数据库是指被优化或部署到一个虚拟计算环境中的数据库,可以实现按需付费、按需扩展、高可用性以及存储整合等优势。云数据库与互联网同时发展起来,是云计算快速推广的产物。2006年,Amazon 推出云服务 AWS(Amazon Web Services),成为全球第一个云计算提供商;2014 年,Amazon 推出 Aurora,一种同时与 MySQL 和 PostgreSQL 兼容的云关系型数据库;2007 年 10 月,Google 与 IBM 开始在美国众多大学推广云计算;2015 年,BigTable 正式亮相 Google Cloud Platform,发力云数据库。1.2、云计算快速发展,奠定数据库上云趋势 作为核心基础软件,数据库扮演着计算关键角色。数据库上游是计算机硬件设备和软件等产品,包括大型机、微型机、存储设备、交换机、路由器和物联网感知设备以及操作系统、BIOS 等软件产品;下游则是广泛涉及的政企用户,如政府、金融、能源、教育和交通等领域。作为数据存储管理软件,数据库在基础软件领域具有与芯片、操作系统同等重要的核心地位。传统龙头根基稳固,云数据库呈崛起之势 。从全球范围来看,传统数据库三大厂商分别为 Oracle、IBM 和 Microsoft。其中,Oracle 又是全球最大,也是应用最为广泛的企业级数据库厂商,一直稳坐行业第一把交椅,甚至拿下中国数据库 40%以上市场份额。然而,随着数据量不断激增,基于开源与分布式的云数据库应运而生,快速冲击着传统数据库的市场格局。根据 Gartner 数据显示,在 2013 年Amazon AWS 推出自研数据库产品 Aurora 之后,旗下的云数据库市场占有率不断提升,并在过去三年维持在市场第一的水平。此外,Microsoft 与阿里巴巴也悉数跻身全球云数据库前 3 名。开源社区与分布式架构,奠定云数据库发展基础。开源数据库作为开源社区产物,其源代码具备全球共享、免费等特点,开发者可在其源码中修改或使用,其中MySQL、PostgreSQL、MongoDB 和 Redis 是当前开源数据库最为重要的参与者。而商业数据库是由企业开发和维护,必须通过授权订阅才能使用,但不能修改,如 Oracle、SQL Server 和 DB2 等是主流商业数据库厂商。2019 年,前三大开源数据库市占率为 57.3% ,前五大占有率为 76.8%,市场高度集中,而其中占据第一位的 MySQL 使用量超过 30%,并持续多年占据排行榜第一。加州大学计算机系开发的 PostgreSQL 排名第二,用户占比达 13.4%,MongoDB 排名第三,市占率为 12.2%,此外紧随其后的是 Redis(非关系型) 、 MariaDB 、 Elasticsearch 、Cassandra 和 SQLite ,前后之间差距较小,竞争较激烈。从集中式到分布式,令云数据库成为可能。分布式数据库是指通过中小型机联接,实现与集中式数据库同等性能的数据库软件。通过扩展或收缩服务器数量,分布式结构可实现性能与服务的弹性变化,大幅降低大型机高性能要求和高昂经济成本,并极大提高数据库的容错性与拓展性,以实现全局逻辑上集中、物理上分布的管理逻辑。根据中国制定《分布式数据库系统标准》,系统可抽象为 4 层结构模式,对应全局外层、全局概念层、局部概念层和局部内层,在各层间还有相应层间映射。1.3、国产化趋势明确,数据库迎信创大机遇 中国数据库市场仍处于快速成长期,国产数据库占比较低。根据智研咨询,2012年我国数据库软件市场规模为 53.15 亿元,2018 年增长至 139.25 亿元,过去 6年复合增速 17.4%。考虑到信创产业发展与服务器出货量触底反弹,未来数据库市场有望迎来新一轮快速增长。假设行业复合增速为 17.4%,则 2020 年国内数据库市场规模有望达到 200 亿元。2017 年,国产数据库产品市场规模为 17.15 亿元;国外产品市场规模 103.07 亿元,占比 83.36%。国产数据库市场份额从 2009 年 4.19%增长至 2017 年 16.64%,国产品牌适配与替换进程加速推进。当前,国内厂商的客户主要集中在政府、国有企事业单位,市场渗透率仍处于一个较低水平。潜力巨大,国外大厂长期垄断国内数据库市场。Oracle、IBM 和 Microsoft 等老牌厂商凭借先发优势在市场份额中占据了有利地位。国产数据库起步较晚,且由于数据库的技术壁垒高,中国在基础软件市场,尤其是数据库领域,仍长期被国外巨头所垄断。2017 年,Oracle、IBM 和 Microsoft 三家厂商占据国内市场近六成份额,其中,Oracle 占据了数据库管理系统 40.1%;IBM 居其次,市场份额为 11%;Microsoft SQLServer 以 8.3%的市场份额位居第 3 。全球数据库为欧美垄断,国产化大势所趋。传统的 IT 架构以 IOE 为主导,IOE 是指 IBM 大型机、Oracle 数据库、EMC 存储设备,是传统大型企业必不可缺的信息化产品。2008 年,在面对高额的支出下,阿里巴巴率先提出“去 IOE”概念,剑指 IT 架构,并通过使用开源软件以及分布式云数据库代替 IBM 大型机、Oracle数据库和 EMC 存储设备。2013 年,阿里基本完成核心系统“去 IOE”工作,历时8 年,成为中国企业界走上“去 IOE”的先驱。一叶扁舟到百舸争流,传统国产数据库历经长时间艰难探索。除了互联网科技巨头,传统国产数据库也经历了很长时间的去 IOE 进程。根据产业发展,可将数据库发展分为四个阶段:阶段一:1992 至 1997 年,达梦数据库与多媒体研究所在武汉成立;1996 年,达梦 DM2 发布并应用于国家电力财务公司;阶段二:1997 至 2000 年,中国数据库行业格局基本形成,IBM DB2、Informix与 Oracle 占据金融、电信、交通与能源等各个行业;阶段三:2000 至 2013 年,数据库产品研发和应用示范受益国家政策,众多厂商不断涌现,如人大金仓、南大通用、瀚高、神舟通用和优炫等;阶段四:2013 年至今,棱镜门事件发生,政策红利推动国产数据库持续扩张。二、数据库行业大洗牌,未来云化成致胜要素2.1、上云成大势所趋,新兴数据库云端飞跃 数据库系统持续演进,拉动百亿美元软件市场。至 2023 年,预计 75% 数据库都将实现上云,这一变化将彻底改变数据库系统供应商格局,Oracle 等传统数据库厂商也将受到挑战。2018 年,数据库全球市场规模达 461 亿美元,同比增长 18.4%,其中云数据库贡献 104 亿美元,占全球数据库市场 22.56%,为行业增长贡献 68%。伴随云计算出现的云数据库形态,给中国数据库厂商突破全球旧有格局提供机会。云数据库按需扩展、按需计费特征使其获得了中小企业及互联网用户拥趸,这又进一步推动云数据库技术发展,形成正反馈。在企业全面上云的背景下,传统数据库上云模式无法满足客户业务快速扩展和智能运维的需求,而灵活伸缩、智能诊断、支持跨云融合的新一代云端原生数据库系统,就成为未来发展的重要方向。数据库发展正从“数据库+云”模式全面转向“云+数据库”模式。根据 Gartner 数据,2019 年全球云计算市场进一步向头部集中,Amazon、Microsoft、阿里云、Google、IBM 位列 2019 年全球云计算市场前五名。其中,Amazon、Microsoft 和阿里云占据市场七成份额。Amazon 排名依旧领跑,不过,其市场份额已从 2018 年 47.9%下滑到 2019 年 45%,其云计算收入增速也低于Microsoft、阿里云和 Google。云原生数据库大势所趋,“云+数据库”贡献行业主要增长点。数据库的未来必然上云,目前云数据库已经为数据库市场贡献一半以上收入增长。云数据库天然具备云灵活性,能够提供强大的创新能力、丰富多样产品体系、经济高效部署方式和按需付费的支付模式。与传统数据库不断放缓的收入增速相比,云数据库正在实现快速增长。从全行业角度,2010 年至 2018 年,Oracle 稳居全球第一;同时,深度布局云数据库的厂商 Amazon、Google、阿里巴巴、华为和腾讯等新进入者,则在市场规模上快速攀升。2013 年以来,Amazon Aurora 从发布到全球第三,仅用了 6 年时间;阿里巴巴云数据库 2014 年推出,位居全球第 26 名,至 2018 年排至全球第 9 仅用了 5 年时间;同时,华为与腾讯分别在 2015 和 2016 年推出相关产品,至 2018年,已经分别居于全球排名 11 名与 13 名,云数据库厂商发展迅速。2017 至 2018 年,整个数据库市场增长了 18.4%,其中云数据库增长贡献 68%,AWS与 Microsoft 贡献其中 75%,二者产品增长均来自于云。此外,2018 年,阿里云位居全球云数据库市场第 3 位,年增速在 115%。云数据库的快速发展,极大地重塑了全球供应商格局。国内互联网科技巨头,纷纷布局数据库产业,借力云计算实现数据库等基础软件领域的迭代与超越。2014 年,阿里云率先孵化原生数据库 PolarDB,并于 2017年正式发布;华为数据库研发始于 2007 年底,2012 年成立 Gauss 实验室,2014年孵化第一个 Gauss OLAP 产品,并于次年在工商银行内部上线;腾讯云数据库始于 2016 年,并于 2018 年发布首款自研云原生数据库 CynosDB。至 2018 年末,三家公司均跻身进入全球数据库前 15 名排行榜。2.2、阿里率先去 IOE,引领亚太数据库上云 2008 年,阿里巴巴率先提出“去 IOE”,剑指 IT 架构,用开源软件及分布式云服务器代替 IBM 大型机、Oracle 数据库和 EMC 存储设备。随着国产 IT 基础软硬件的不断发展,“去 IOE”已经由一个企业的目标成了整个行业的目标。2013 年,阿里基本完成了核心系统“去 IOE”工作,历经 8 年,成为中国企业界走上“去 IOE”的领头羊,而 Oceanbase 和 PolarDB 则是阿里(阿里云与蚂蚁金服)数据库的典型。金融级分布式关系型数据库,专注服务交易行业。2010 年,蚂蚁金服、阿里巴巴正式推出自主研发的金融级分布式关系型数据库 OceanBase,该数据库具有数据强一致、高可用、高性能、在线扩展、高度兼容 SQL 标准和主流关系型数据库、低成本等特点,一经推出,即在金融领域实现快速扩张。如今,OceanBase 已成功应用于支付宝全部核心业务:交易、支付、会员和账务等系统以及淘宝等业务。除此之外,2017 年始,OceanBase 也开始服务外部客户,包括南京银行、浙商银行、印度 Paytm 和人保健康险等。技术上,OceanBase 采用 Share-Nothing 架构,实现各个节点之间完全对等,每个节点都有自己的 SQL 引擎和存储引擎,在整个设计里没有任何单点,从架构上解决了高可靠和高可用问题。阿里云进军云数据库,PolarDB 带来数倍性能提升。PolarDB 是阿里云 2017 年 9月推出的自研下一代关系型云数据库。数据库有三个独立的引擎,分别可以 100%兼容 MySQL、100% 兼容 PostgreSQL、高度兼容 Oracle 语法,存储容量最高可达100TB,单库最多可扩展到 16 个节点,适用于企业多样化的数据库应用场景。PolarDB 既融合了商业数据库稳定可靠、高性能、可扩展等特征,又具有开源云数据库的简单开放、自我迭代优势,如 PolarDB MySQL 性能最高可以提升至 MySQL的 6 倍,而成本只有商用数据库的 1/10,极大地提高了使用弹性。积极突破,成功进入“挑战者”象限。在 Gartner 公布的 2019 年全球数据库魔力象限中,阿里云成功由 2018 年的“观察者”进入到“挑战者”象限,成为连续两年上榜的唯一一个中国企业。2018 年,阿里云已位居全球云数据库市场份额第 3位以及中国市场第 1 位,年增长率达到 115%,营收规模是第 2 名厂商的 2 倍,同期 AWS 增速为 74%、Oracle 为 66%。与 2018 年相比,数据库魔力象限还出现了一定变化,Oracle、Microsoft 等传统数据库公司仍然是领导者,但是今年 IBM 从“领导者”象限滑落至“远见者”象限,阿里云、Google 则表现更为突出。2.3、腾讯发力银行端,首度进银行核心系统 2010 年,腾讯首次开放云计算功能,正式对外提供服务。2011 年 2 月,腾讯云数据库、NoSQL 高速存储上线;2013 年,腾讯云面向全社会开放、云安全上线,公司云计算进入快速发展期。根据 Gartner 统计,2018 年,腾讯云数据库市场份额增速达 123%,位列国内所有数据库厂商之首,在全球范围内连续两年保持增速前 3 势头。此外,Forrester 也在全球数据库评估报告中,给予腾讯云数据库“实力竞争者”评价。腾讯云数据库平台涵盖各类产品,包括关系型与非关系型,分布型与分析型等适应各类应用场景的数据库产品,包括开源数据库 MySQL、MariaDB、MongoDB、Redis;商业数据库 Oracle、SQL Server;也包括自研数据库 TDSQL、TBase 等,满足 OLTP、OLAP 及 HTAP 等多场景需求。同时,2018 年,腾讯云还结合新硬件和云特性推出计算和存储分离的 NewSQL 国产自研数据库 CynosDB,100% 兼容 PostgreSQL 和 MySQL 协议。落地张家港,国产数据库首次迎来金融核心领域突破。2019 年,腾讯云新一代分布式数据库 TDSQL 落地张家港农商行,银行传统核心系统首次实现数据库国产可控,TDSQL 助力张家港农商行实现“降本增效”,实现 75% 以上的硬件投入成本缩减,节省超过 20% IT 投入。在传统银行之外,TDSQL 也已经部署在腾讯云与微众银行打造的全球首家云上银行系统中,运营后,系统成本比传统银行节约 50%以上;单 IT 运维户均成本也不到传统银行的十分之一。快速扩张,腾讯云数据库支撑数十万计企业用户。腾讯云数据库目前已经为数十万企业级用户提供服务。腾讯内部众多产品包括 QQ、微信、财付通、视频、新闻和游戏等背后都使用了腾讯云数据库。更多企业在实现核心业务系统时使用腾讯云数据库,如小红书、猎豹、微众银行、蘑菇街和猫眼等等;在应用场景上,公司产品也已经全面覆盖了电商、金融、游戏等行业。2.4、华为十年磨一剑,打造智能异构数据库 企业级 AI-Native 分布式数据库,支持 AI+异构计算。高斯数据库(GaussDB)是华为2019年5月正式推出的商业数据库,产品包括GaussDB OLTP和GaussDB OLAP,产品主要应用于金融、政府、能源和电信等行业,可以满足高并发事务实时处理、海量数据高效分析等需求。GaussDB 数据库采用 MPP 架构,支持行存储与列存储,提供 PB 级别数据量的处理能力,可以为超大规模数据管理提供高性价比通用计算平台,也可用于支撑各类数据仓库系统、BI 系统和决策支持系统,为上层应用的决策分析提供服务。此外,产品还将 AI 能力植入到数据库内核架构和算法中,为用户提供更高性能、更高可用、更多算力的分布式架构与能力。异构计算,GaussDB 数据库支持 X86、ARM、GPU 和 NPU 等架构。与传统 X86 架构数据库厂商 Oracle、Microsoft 不同,GaussDB 除了支持 X86 架构,还支持 ARM、GPU 和 NPU 等芯片架构,可以建立在华为鲲鹏架构之上,包括网络设备、芯片、操作系统、云计算和人工智能等,实现闭环生态高度耦合。异构计算为华为走差异化路线和国产服务器奠定了技术储备优势。截至 2019 年 11 月,华为数据库产品全球累计发货超过 30000 套,广泛应用于多个行业,其中,又以银行最具有代表性。从信息安全角度,国产数据库对于中国各行各业意义重大。2015 年,GaussDB OLAP 在工商银行上线;2018 年,又陆续在招商银行部署上线,包括综合支付交易、信用卡重资产营销、金融科技类项目,包括“手机银行”、”掌上生活”,也包含金融科技类创新业务。至 2019 年底,已经有超过 17 套招行生产业务在 GaussDB 数据库上线投产,覆盖核心、渠道、零售、对公、同业、风险、信用卡和数据仓库等领域。联合用友,产业互补,大力开发鲲鹏产业生态发展。2019 年 8 月,用友网络与华为签订合作协议,基于用友企业云服务和华为 GaussDB 数据库打造领先的联合解决方案,共同推进构建鲲鹏国产计算生态。双方将协同完成大型企业数字化平台NC Cloud 等产品对 GaussDB 数据库的适配。用友和华为在企业服务上具有高度的互补性,双方技术、产品与服务能够进行深度融合。华为分布式 OLTP 数据库 GaussDB,采用鲲鹏处理器,使得故障恢复在数秒内即可完成,且支持单机、分布式和两地三中心三种部署模式,可以满足企业核心应用诉求。作为高性能企业级数据库,GaussDB 数据库可以有效应对 5G、IoT和移动互联网带来的井喷式数据增长,单机可达 150 万 tpmC,分布式部署实测达千万级 tpmC。三、信创产业迎大时代,国产数据库异军突起3.1、百家争鸣,传统数据库厂商蓬勃发展 从国产数据库“四小龙”,到产业百花齐放。经过近 30 年的发展,国产数据库已经形成了以武汉达梦、人大金仓、南大通用和神舟通用“四小龙”为代表的,以阿里、腾讯和华为科技巨头为代表的,以科蓝软件外延并购 SUNJE SOFT 厂商切入数据库赛道为代表的,以及百余家新兴数据库厂商采用开源参与的竞争格局。其中,武汉达梦、南大通用等企业厂商年销售额均在亿元以上。2018 年,在中国 IT 年会上,南大通用拿下 2017-2018 中国国产数据库市场年度占有率第一,实现市占率第一的“五连冠”;武汉达梦获得了“国产事务性数据库市场占有率第一”。人大金仓和武汉达梦在政府行业占据了前二的市场份额。国产传统数据库多在政务市场,政策驱动提高行业景气度。我国数据库需求市场主要在消费品、装备、政府采购领域,其中消费品领域数据库 2017 年需求达到20.76 亿元,装备 18.24 亿元,政府采购 13.75 亿元。国产数据库受益政策较多,在“新基建”及信创产业政策推动下,未来 3-5 年有望迎来一个快速迭代与发展过程。2017 年,我国国内主要数据库企业南大通用营业收入为 3.05 亿元,占同期国内数据库市场总规模 2.54%;武汉达梦营业收入 2.26 亿元,占比 1.89%;山东瀚高收入 0.80 亿元,占市场份额 0.67%;爱可生营业收入 0.74 亿元,占比 0.62%;人大金仓营业收入 0.55 亿元,占比 0.46%,国产数据库市场渗透率有望进一步提升。则信创市场空间在保守、中性与乐观假设下,数据库国产化的潜在市场空间分别为 108、268 和 428 亿元。3.2、武汉达梦:全面自研国产数据库厂商 武汉达梦数据库有限公司(“武汉达梦”)成立于 2000 年,专业从事数据库管理系统的研发和销售等业务。是中国电子信息产业集团(CEC)旗下重要基础软件公司,大股东中国软件持有公司 25.21%股权。武汉达梦采用“销售产品+技术服务”盈利模式,目前已经掌握数据管理与分析领域的核心前沿技术,是国内少数拥有全部源代码,具备完全自主知识产权和产品线最全的厂商之一。2019 年,公司实现营业收入 2.72 亿元,同比增长 25.41%;净利润 0.57 亿元,同比增长 93.57%,连续两年实现净利润快速增长。2012 年至 2019 年,武汉达梦实现收入较快增长,复合增速 14.06%;净利润整体呈上升趋势,复合增速 73.3%;除 2014 与 2016 年亏损,其它年份均实现盈利,且近两个净利润呈现加速增长趋势,原因主要系国产化与信创产业需求放量。立足武汉,辐射全国做强做大。公司以武汉总部为中心,在全国建立了北京、华北(沈阳)、西北(西安)、西南(成都)、华中(武汉)、华南(广州)和华东(上海)等 7 个技术服务中心,具备全国综合性服务及解决能力。此外,公司拥有稳定的市场营销渠道和技术服务网络,产品已覆盖政府、电力、通信和金融等 30 多个关首国计民生的行业,当前已经进入金融、社保、民航和电力等高端应用领域核心交易系统。此外,武汉达梦在泰国、印尼和津巴布韦等东南亚和南美市场也取得了一定突破。截至 2019 年,武汉达梦拥有员工规模超过 700 人,根据公司披露信息,2015 至2017 年,公司技术研发人员占达梦总人数为超 50%,每年研发投入收入占比超过25%,具备较高水平研发能力3.3、人大金仓:国内最早的数据库拓荒者 1999 年,人大金仓由中国人民大学最早一批数据库教学和研发的专家发起创立。与达梦数据库一样,公司采用“销售商品+技术服务”商业模式。公司产品主要应用于电子政务、国防军工、电力和金融等超过 20 个重点行业,完成装机部署超50 万套,遍布全国近 3000 个县市。背靠 CETC,打造信创产业链重要环节。人大金仓背靠中国电子科技集团有限公司(CETC),是集团旗下上市公司太极股份的重要参股子公司。公司主要客户集中在电子政务、党务、国防军工、金融、智慧城市和企业信息化等领域,在北京、上海、成都和天津等地都设有研发和服务中心,在全国设有分公司、办事处及代理合作机构。2017 年 5 月 18 日,太极股份对人大金仓增资 5000 万元,持股比例由 32.74%上升至 38.18%,成为人大金仓第一大股东;2017 年 4 月 16 日,南天信息对人大金仓增资扩股 3000 万元,持股比例 11.70%;2019 年,人大金仓业务迅速增长,全年新签合同总额增幅超过 100%;2019 年 8 月,人大金仓成功中标 2019 年央企软件联合采购项目,中标金额高达 1342 万。2019 年,人大金仓实现营业收入 0.85 亿元,同比增长 37.3%;净利润 378 万元,同比小幅增长。2012 年至 2019 年,公司整体业绩较为平稳。2015 年至 2017 年,人大金仓的技术人才占比为 21.56%。3.4、GOLDILOCKS:高端内存数据库新星 外延并购,拓宽国产高端传统数据库能力圈。SUNJE SOFT 是一家致力于研发内存分布式数据库产品的成熟韩资企业,产品在高并发、实时交易的数据处理领域具有突破性的创新和优势。2018 年 12 月,北京科蓝软件系统股份有限公司(以下简称“科蓝软件”)香港全资子公司科蓝软体系统(香港)通过现金 7300 万元人民币收购 SUNJESOFT 株式会社 67.15% 股权,完成对分布式内存数据库GOLDILOCKS 的收购。GOLDILOCKS 分布式数据库具有支持高并发、实时交易的处理能力,在海量数据处理方向具有突破性技术,可以彻底解决传统磁盘数据库的性能瓶颈问题,显著提升业务系统处理能力。在产品设计上,GOLDILOCKS 具有分布式计算、可扩展性和基于内存计算等特性,同时保持了对传统技术良好的兼容性,如 ACID 和 SQL 的支持,其高并发、低延时、高可用及支持复杂数据模型的特点,并适用于电信、金融等对实时性要求较为严格要求的场景。此外,产品没有采用 MySQL 或 PostgreSQL 等相关内核技术,因此可有效规避潜在的知识产权和信息安全隐患,不受国际形势变化因素影响。在国产化生态建设工作中,GOLDILOCKS 已经完成了国产处理器、操作系统及中间件的兼容适配工作,其中,芯片方面已经与 ARM 架构的鲲鹏、飞腾完成适配;操作系统层面与 UOS、麒麟适配;中间件与国产主流东方通、中创和金蝶完成适配,具备作为信创数据库产品的能力与条件。四、投资建议与相关标的4.1、中国软件公司是中国电子(CEC)旗下网络安全与信息化板块的核心企业。中国软件拥有包括操作系统、中间件、数据库等基础软件、安全产品、应用系统等较为完善的安全创新产业链。传统国产操作系统龙头,信创产业重要一环。公司旗下参股 25.21% 子公司武汉达梦是当前传统国产数据库中最为具代表性的稀缺产品,武汉达梦主营业务为关系型数据库,其核心源码属于 100% 自研。4.2、太极股份公司是中国电科(CETC)旗下网络安全与信息化板块的核心企业。太极股份是国内电子政务、智慧城市和关键行业信息化的领先企业,通过 CETC 集团间整合,公司打造了云服务、网络安全与自主可控、智慧应用和系统集成服务的业务结构体系。2020 年 3 月,公司控股股东十五所将其 33.20%股权无偿划转至中电太极(集团)并将表决权委托给中电太极,通过改革,企业活力得到进一步激发。CETC 核心资产,人大金仓打造国产数据库龙头。公司旗下参股 38.18% 子公司人大金仓是传统国产数据库“四小龙”之一,公司主营业务为关系型数据库,在政务领域拥有高识别度与市场占有率。4.3、科蓝软件公司成立于 1999 年 12 月,是国内领先的银行 IT 解决方案供应商。公司主营业务是向以银行为主的金融机构提供软件产品应用开发和技术服务、IT 咨询、规划、建设、营运、产品创新以及市场营销等解决方案;同时公司积极拓展保险、证券、大型央企国企、金融控股企业等非银金融机构。2018 年 12 月,公司香港全资子公司科蓝软体系统(香港)通过现金 7300 万元人民币收购 SUNJESOFT 株式会社67.15% 股权,完成对分布式内存数据库 GOLDILOCKS 的收购,布局信创超高性能的分布式内存数据库。科蓝软件与公安部三所、华为钱包合作,推出手机柜台系统;基于华为 HMS 手机钱包提供的最高安全等级移动终端可信执行环境(TEE);为数字货币体系的全线上化运行提供更可靠、更权威的 KYC 工具,落实数字货币在交易环节的反洗钱、反恐怖融资等政策要求的客户身份验证,保障数字货币体系安全运行等。……(报告观点属于原作者,仅供参考。报告来源:兴业证券)如需报告原文档请登录【未来智库】。

名川三百

数据库行业深度报告:历史机遇,国产数据库市场迎来十倍空间

如需报告请登录【未来智库】。一、数据库行业的基本情况(略)1.数据库的性能:六个方面,一套标准数据库的性能指标聚焦于 6 个方面:吞吐量、负载均衡、读写速度、分区分片、并发性和可用性。不同类型的数据库由于使用场景的差异,在性能和功能上有不同的偏重,在这六个指标方面同样会有所差异。常见的具体指标有平均每秒响应速度、查询速度、平均每秒吞吐量等。TPC 是国际上最流行和广泛接受的数据库性能标准测试。TPC(事务处理性能委员会)是由十几家会员公司创建的非盈利组织,总部设在美国。TPC 的成员主要是计算机软硬件厂家,主要功能是制定商务应用基准程序的标准规范、性能和价格度量,并管理测试结果的发布。针对不同类型数据库之间的区别,TPC 颁布了对于数据库在线事务处理(OLTP)能力测试的基准程序 TPC-C 和在线分析处理(OLAP)能力测试的基准程序 TPC-DS。TPC-C 测试中的 tpmC 值(TPC-C 测试过程的吞吐量,按有效 TPC-C 配置期间每分钟处理的平均交易次数测量),在国内外被广泛用于衡量数据库系统的事务处理能力。根据 TPC-C 最新排名,蚂蚁金服自研的OceanBase 数据库 tpmC 值达到 707,351,007,成功超越之前的记录,击败 Oracle 和 IBM 的数据库,登顶榜首。2.国内数据库市场现状:国产化持续推进,关系型数据库为主导当前我国数据软件市场具有百亿以上市场规模,持续受益大数据产业发展。根据智研咨询数据显示,2017 年我国的数据库软件整体市场规模为 120.22 亿元,12-17 年的行业复合增速超 17%,处于稳健发展期。根据 2019 大数据白皮书,2019 年大数据研发人员超过 8 万人,研发投入超过 550 亿人民币,同时预计我国 2020 年大数据产业市场达 6600 亿元以上,行业复合增速超 20%,数据软件细分市场作为产业重要构成持续受益产业发展红利。传统关系型数据库仍为主流,市占率超 85%。当前数据产业发展下的海量数据导致大量非关联数据分析需求的产生,导致关系型数据库占比的下降。但参考国外数据库的发展和国内数据库市场当前情况,传统关系型数据库仍占主导,国内市场规模从 2012 年的 46.51 亿元增长到 2017 年的 102.8 亿元,复合增速为 17%,略高于行业增速,市占率超 85%。国产化替代持续推进,关系型市场中国产数据库市占率从 2009 年的 4.2%提升至 2019 年的 18.9%以上,海外四巨头仍占据 65%以上份额,海外厂商整体增长乏力。自 10 年前后提出“去 IOE”和 13 年棱镜门事件影响后,我国一直在推动国产数据库持续扩张,国产市占率从2009 年的 4.2%提升至 2019 年的 18.9%以上,但近 3 年海外四巨头在国内市占率仍维持在 65%以上份额,因而当前海外巨头的影响力仍在,国产化仍有较大提升空间。国内数据库市场面临新入跨界巨头的竞争,南大通用、人大金仓和武汉达梦等传统数据库公司份额有所下降。华为、阿里 2019 年起将自研数据库推入市场并进行大力的商业推广,加剧国内数据库市场竞争。根据 IDC 的数据,2019 年国内传统部署的关系型数据库市场中,华为数据库以 6.2%的市场份额位列第五,排在 Oracle、Microsoft、IBM、SAP 之后;阿里巴巴以 5.8%的市场份额位列第六;而传统数据库厂商南大通用和人大金仓分别以 4.2%和 2.7%的市场份额排在第七、八位当前云部署已成为国内关系型数据库新方式,国内数据库云化率持续上升。根据 IDC 数据,2019 年中国关系型数据库传统部署模式的市场规模为 7.9 亿美元,公有云模式市场规模为5.5 亿美元,同比增速 30%。其中,2019 年阿里巴巴在公有云关系型数据库市场中以 48.1%的市场份额排名第一;腾讯以 20.4%的市场份额排名第二,AWS 以 10.4%的市场份额排名第三;随着企业数智化转型和数据上云的持续,未来 3 年国内数据库采用云部署的市场增速将超过关系型整体市场 23.2%的行业增速。二、以史为鉴:行业与巨头发展史1.数据库行业发展史:穿孔卡片、关系数据库、非关系数据库到云数据库(略)2.Oracle 发展历程:市场领导者是怎样诞生的(略)复盘 Oracle 的崛起历程,可以发现技术驱动和行业垂直整合是 Oracle 发展历程最重要的两个因素。每次行业变革发生时,Oracle 始终走在最前面,成为市场的领导者,凭借自身的技术优势和优秀的产品击败对手。如今,云数据库概念的兴起,行业再次进入到技术变革期。在这次技术浪潮中,中国厂商与国外厂商一起走在前面,抓住云数据库的发展趋势,有机会实现弯道超车,扩大、巩固行业地位。此外,行业通过收购方式打造垂直生态链,提供完整解决方案,更有希望获取优势,击败竞争对手。三、数据库行业的未来1.数据库行业的发展方向:云数据库、非关系型数据库、内存数据库与流数据库 云数据库、非关系型数据库、内存数据库、流数据库是当前数据库行业发展方向。云数据库降低企业成本的同时为企业提供更加方便的云服务;非关系型数据库在互联网背景下比关系型数据库有更好的表现;内存数据库更能满足当今企业和用户对快速读取的需求,流数据库在内存数据库的基础上加强数据库的实时分析和流量监控能力。这四种数据库成为数据库行业的新方向、新动力。云市场快速增长,数据上云成为趋势。云数据库并非是一种全新的数据库模型,而是选择以服务的形式向用户提供数据库功能。不同规模企业对云数据库的需求不同:对于大型企业,云数据库可以满足海量数据存储需求;对于中型企业,云数据库可以满足数据存储动态变化的需求;对于小型企业,云数据库可以满足低成本数据存储的需求。Gartner 认为,数据库的未来必须云化,目前云数据库已为数据库市场的增收贡献一半以上份额。与传统数据库不断下降的营收相比,云数据库正在积极地快速增长。到 2022 年,预计有 3/4 的数据库天然部署或迁移到云上。Gartner 表示,企业正将新应用向云转移,对数据存储和计算分析的能力要求不断加强。相比传统数据库,云数据库天然具备灵活性,能够提供强大的创新能力、丰富多样的产品体系、经济高效的部署方式和按需付费的支付模式。非关系数据库比重提升,关系数据库保持市场主体地位。近年来,数据增速集中于物联网设备、影音文件、网站日志、社交信息等,这些数据具有海量、低信息密度的特点。非关系数据库易于扩展、无序存储、分布式架构的特性,相比传统的关系型数据库,更能满足对这些数据的储存需求。虽然关系数据库的市场份额和增速受到非关系数据库崛起的影响,但关系数据库成熟的体系和完整的生态将持续为 CRM、REP 和信用卡交易等以结构化数据为主并注重数据安全和一致性的场景提供服务。数据库行业发展的最新趋势表明,关系数据库和非关系数据库的边界逐渐变得模糊。NewSQL 数据库开始兴起,这类数据库不仅具有非关系数据库对海量数据的存储管理能力、高性能数据处理和易于扩展的特性,还保持了传统关系数据库支持 ACID 和 SQL 查询等特性,支持关系数据模型。一些非关系数据库也发生转变,调整数据结构以支持使用 SQL 语言查询。William Blair 认为,数据库未来将是把关系数据库和非关系数据库结合,跟据数据结构、使用场景灵活调节,共同为用户服务。内存数据库得到广泛运用。随着移动互联网发展,信息系统的互动性日益增强、用户规模不断攀升,催生出一大批高并发、低时延的新兴应用。基于磁盘存储的数据库受限于磁盘的读写速度,很难满足低时延与高并发的需求。将数据存储在内存里的内存数据库成为解决传统磁盘数据库问题的主流技术路线。在电子商务、视频直播、电信计费等对响应速度要求极高的场景下,内存数据库大展身手,进入成熟的商用模式。根据 Research and Market 的报告显示,2019 年全球内存数据库市场达到 41.6 亿美元,预计到 2025 年将增长至 118.2 亿美元,复合增长率达到 19%,远超整体市场每年 8%的增长率,市场前景广阔。流数据库成为新潮流。在内存数据库中,主打事务处理和实时分析结合的流数据库成为新潮流。流数据库是指能实时收集、处理、存储流数据(一组顺序、大量、快速、连续到达的数据序列)的数据库。相比传统数据库分批处理数据,流数据库在对数据完成实时分类、分析、存储等环节,应对海量数据涌入时,仍能保持实时响应和低延迟。流数据库通常采用内存作为数据存储方式,并采用分布式架构,需要高速处理的数据可异步快速加载到处理集群内存中;处理集群可轻易地扩展到数百个物理节点,提升处理速度。流数据库适用于快速响应、实时分析、实时监控等场景。对于企业,依靠流数据库强大的实时数据反馈与商业智能结合,对终端用户数据监控并迅速做出决策,有效提升运营效率并减少决策时间,更好地在商业竞争中取得优势。开源数据库成为更多企业的选择。开源数据库是指源码完全开放,可供大众下载和修改的数据库。常见的开源数据库有 MySQL、PostgreSQL、MongoDB 等。面对价格低廉、性能相等、生态不断完善的开源数据库,昂贵的商业数据库逐渐失去市场优势。根据数据库权威排名 DBEngines 数据显示,截至 2019 年开源数据库和商业数据库已平分秋色,考虑到大部分云数据库采用开源架构,随着开源数据库生态不断完善、功能日益丰富,未来开源数据库的市场份额将进一步提升。商业数据库虽然份额持续下降,但这并不意味着商业数据库会退出市场。对于一些注重数据安全性的企业,如银行、跨国公司,商业数据库依旧是一个让人放心的选择。此外,一些长期使用商业数据库的大型企业,如果从商业数据库转变为开源数据库需要复杂的数据迁移,这会影响企业的日常业务。此外,开源数据库如 MySQL、Neo4j 等由于协议的开放性,限制了其他企业商用能力;虽然存在社区贡献者和个人开发者,但社区整体生态和服务支持比商用数据库仍相差甚远。综合来看,商业与开源数据库各有优劣:开源数据库在互联网行业和小微企业很有市场;传统行业和大型企业依旧高度依赖商业数据库。2.国内数据库行业的未来:市场需求、国产替代与云化趋势 国内数据库市场潜力巨大。自 2012 年以来,国内数据库市场迎来蓬勃发展期,进入百花齐放时期。传统数据库厂商和云数据库服务商都在加速产品迭代和推出新的产品。同时,新兴数据库厂商不断涌现,以及其他领域厂商向数据库跨界情况的增多,使中国数据库市场更加繁荣和活跃。根据 IDC 中国的数据显示,2019 年中国关系型数据库软件市场规模为 13.4 亿美元。其中,传统数据库市场规模为 7.9 亿美元,公有云数据库市场规模为 5.5 亿美元,整体市场同比增长 30.8%。IDC 预测,到 2024 年,中国关系型数据库软件市场规模将达到 38.2 亿美元,公有云关系型数据库软件市场规模将达到 25.1 亿美元。信息量爆发式增长,数据库需求提升。IDC 在报告指出,全球数据量总和将从 2018 年的32ZB 增至 2025 年的 175ZB,信息数据呈爆发增长态势。由于中国上网人数的增加以及视频监控设备的普及,加上大数据、移动互联网、人工智能等技术革新和正式投入商用,IDC 认为中国将保持 30%的复合增长率,到 2025 年中国将成为世界上数据量最多的地区。去“IOE”持续推进,本土厂商产品成熟、竞争力提升。“IOE”是指 IBM 的小型机、Oracle 的数据库系统和 EMC 的存储设备及中间件,这些国外厂商设备占据了国内市场的大部分份额。目前国内市场上的数据库系统主要产品仍来自 Oracle、IBM、Microsoft 三大国外厂商,国产数据库产品渗透率低。自从数据与信息安全得到政府和企业重视以来,国产产品在关键领域实现替代成为重中之重。2008 年,阿里率先开始去“IOE”运动,到 2013 年,最后一台 IBM的小型机下线,阿里巴巴彻底完成去“IOE”的计划。在这之后,许多企业和政府机构开展设备国产化的运动,为国产厂商带来新的增长机遇。经过一段时间成长和磨砺后,从性能和功能来看,国产数据库已能覆盖绝大部分数据库使用的场景,在某些细分领域甚至推出性能超越、价格远低于国外产品的数据库解决方案。未来会有更多企业、政府机构和事业单位选择国产数据库作为替代。外部环境压力激增,国产替代进程加速。中美关系自 2016 年贸易摩擦以来持续恶化,中兴通讯、华为、海康威视等企业遭受不同程度的制裁。2020 年 5 月,新一批制裁名单公布,将 33 家机构、企业和个人列入限制名单。随着中美博弈升级,国家对信息技术创新的支持也逐步公开化、透明化。我们预期信创产业采购将于 2020 年下半年开始落地,我们认为国产数据库的替代需求将释放,国内企业有望持续受益政策和行业双重红利。我们根据政府机关人数、事业单位人数和国有企业职工人数推算接下来 5 年内国产数据库的市场情况。假设不考虑民用消费市场,根据《2018 年财政年鉴》、《2018 年国有资产监督管理年鉴》显示,2017 年我国政府机关人数、事业单位人数、国有企业员工人数分别达到 1300万、3150 万和 6000 万人,分别按照人均配置 1 台、0.7 台、0.4 台电脑计算,并按照 15 台、15 台、20 台电脑配置 1 台服务器、5 台服务器配置 1 套数据库,一套数据库采购价分别为 12万、10 万和 12 万,计算得出政务市场、事业单位和央企国企整体市场规模分别为 208 亿、294亿、288 亿。考虑当前已有 20%的市场份额为国产数据库,因而若完全全部替代,则整体替换市场空间为 163 亿、233 亿、230 亿,合计 626 亿;保守估计只完成 50%的替换,则新增空间为 61 亿、87 亿、86 亿,合计 235 亿。我们预计数据库的国产采购于 2020 年开始,到 2024 年完成全部采购,每年采购项目分别占整体市场规模的 20%、30%、25%、15%、10%,算得 2020-2024 市场采购规模分别为 156亿、235 亿、196 亿、117 亿和 78 亿元。按 100%替换计算,则合计未来 5 年,政府、事业单位和国企采购将为国产数据库市场带来增量 626 亿(已有近乎 20%国产不替换),50%替换则新增空间 235 亿。云数据库服务得到企业青睐。云数据库作为云服务的核心组成部分,为制造业企业和小微企业提供成本低廉、功能丰富的数据存储服务,企业无需斥资购买商业数据库或者雇佣专业人员根据开源数据库自行搭建。根据国家统计局数据显示,2019 年我国小微企业超过 7000 万家,而阿里云、腾讯云、华为云用户数分别为 300 万、200 万、100 万,市场渗透率有待提高。上云已成为趋势,未来会有更多小微企业选择使用云数据库,云数据库规模将继续扩大。四、国内数据库产业基本情况与重点企业分析(详见报告原文)国内主流数据库公司以事务型为主,部分涉及分析型数据库,而云数据库通常可以使用多种数据库。当前市占率较高、具有技术领先性的商用数据库有: 武汉达梦、人大金仓 Kingbase、东软集团 OpenBASE、神舟通用 OSCAR、南大通用 GBase、科蓝软件 Goldilocks、柏睿数据库和阿里 Oceanbase、华为 GaussDB。……(报告观点属于原作者,仅供参考。报告来源:民生证券)如需报告原文档请登录【未来智库】。

美人恩

Gartner报告:阿里云进入全球数据库领导者象限

24日,国际行业研究机构Gartner公布2020年度全球数据库魔力象限评估结果,作为中国科技公司代表,阿里云首次挺进全球数据库第一阵营——领导者(LEADERS)象限,这也是中国数据库40年来首次进入全球顶级数据库行列。(第一财经)

罗汉村

国产替代背景下,数据库和数据分析行业的发展和投资机会

图片来源@视觉中国文 | 钛资本研究院国产自主可控是最近非常热门的话题,从2018年开始启动到2019年已经有众多的厂商加入了实现国产自主可控的行列,并且随着疫情的发展、中美贸易战的摩擦,国产自主可控已经是一个核心话题。钛资本投研社邀请了投资人党成磊,分享国产替代背景下数据库与数据分析行业的发展和投资机会。党成磊毕业于上海财经大学,拥有电子信息工程学士和经济学硕士学位,曾就职于海航、复星集团、德邦证券直投子公司,有多年的产业经验,主要从事大数据、云计算、AI、安全、物联网、芯片等技术领域和技术驱动相关的金融、零售、工业互联网领域的研究和投资工作。 01 数据库市场分析操作系统、中间件、数据库是基础架构软件领域开发难度最大的三个部分,替代周期非常长,因此国产数据库会有很大替代的机会。数据库首先从OLTP和OLAP说起。如下图所示,OLTP联机事务数据库一直由Oracle、IBM DB2、MySQL、SQL Server等占据主导地位,而国内阿里的OceanBase、腾讯的TBase、达梦数据库、PingCAP才刚刚起步。2018年商业数据库市场规模147亿,Oracle在电信、金融、能源、电力领域占据主导地位,MySQL在互联网行业应用广泛,同时这个行业存在一个较大的的缺点,就是价格比较昂贵,且都基于传统的集中式架构。根据第三方统计数据,以传统集中式数据库市场为例,Oracle占比40.9%、IBM DB2占比11.9%、SQL Server占比6.7%、SAP占比5.9%,其余厂商占比分散。该市场以跨国巨头为主,国产替代安全自主可控下的国产数据库在未来将有很大的市场空间。接下来再到OLAP联机分析的数据库。OLAP从最早的数据库一体机,逐渐演变到MPP数据库和Hadoop数据库。数据库一体机价格非常昂贵,国产替代有南大通用、人大金仓、天玑、云和恩墨等;而MPP数据库的实时性非常强,现在主要是Vertica、Greenplum;最后是Hadoop数据库,有星环、中兴、华为等传统的硬件厂商在搭建Hadoop数据仓库。根据第三方数据统计,2018年OLAP的市场规模大概在70亿左右。数据库占整个IT基础架构软件的高市场份额。根据Gartner统计,2017年全球数据库管理软件的规模达到388亿美元,其中数据库软件占到整个IT基础架构软件的20%。数据库主要分两个维度:第一个维度是关系型、非关系型,例如Oracle、MySQL、DB2、SQL Server等都属于关系型数据库,MongoDB、Tigergraph、neo4j、TITAN等则属于时序数据库即非关系型数据库;第二个维度是OLTP和OLAP,就是联机事务处理和联机分析。以后的趋势是更加关注OLAP与非关系型数据库。02 数据库简史谈及数据库的发展历史,就不得不提及三位数据库领域的开拓者,分别是Frank、Micheal和Jim Gray,他们为数据库理论奠定了坚实的基础,都获得了图灵奖。早在1972年,Micheal最早提出了Ingres数据库,于2014年获得图灵奖,Ingres数据库最后分化衍生为Sybase与Postgres两部分。其中Postgres数据库有大量分析函数,适用于分析型事务,尤其是OLAP。1972年,埃里森在硅谷开发了Oracle数据库,再到1983年IBM开发了DB2数据库,同年Tdata诞生,直到1995年MySQL数据库诞生。而如今的Oracle于2009年收购了MySQL,这样一来就同时拥有了Oracle和开源的MySQL两套数据库,MySQL的创始人在离开后又开发了一套数据库MariaDB,现在国内有很多银行,像亿联银行等新的银行都在使用MariaDB。在此先回顾一下OLTP数据库的发展历程。2003-2006年,谷歌发布了几篇关于分布式关系型数据库的论文,以此为基础2012年开发了谷歌F1作为内部自用数据库;2014年CockroachDB研发分布式关系型数据库,2017年国内的刘淇团队也成功开发了PingCAP数据库;到了2015年,阿里巴巴的OcenaBase经过内部多年打磨最终对外推出使用。然后是OLAP数据库的发展历程。OLAP最早为数据库一体机,由IBM Netezza、Oracle Exadata、Teradata应用于高端存储上,对于硬件要求非常高。到2000年后MPP数据库大规模应用,成功实现了软硬件分离,数据不再需要存储在专有服务器上。2006年到2008年期间,随着Hadoop的大规模普及出现第三代分析型数据库,数据存储与HDFS之上,能够存储、计算分离、实现各节点间的访问,具有很强的扩展性能。之后在Handoop的基础上进一步完善优化数据库性能,称之为最新一代数据仓库,代表的有HAWQ、Hive、Impala等。03 数据库相关概念关于最早的数据库一体机,Oracle在收购了SUN之后开始推广软硬件一体机,开发了一款叫Oracle Exadata的产品,是由数据库服务器Database Machine和存储服务器Storage Server组成,最核心的技术是Exadata Cell,用于数据的存储和调度,现在国内的天玑云和恩墨也在做数据库一体机,是通过浪潮、曙光、联想、华为做软硬件适配。数据仓库的概念。现在有许多大中型企业都在搭建数据仓库,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于做决策管理和全局信息共享,主要功能是将OLTP联机事务处理产生的大量数据,通过数据挖掘、通过联机分析,通过OLAP来帮决策者进行统计分析。数据湖的概念。数据湖是一个存储整个企业各种各样原始数据的数据仓库,其中数据可供提取、处理、分析、传输,数据湖可以包括来自关系数据库的结构化数据,半结构化数据(CSV、日志、XML、JSON),非结构化数据(电子邮件、文档、PDF)和二进制数据(影音材料)。数据中台的概念。数据中台是将企业内外部多源异构的数据进行采集、治理、建模、分析、应用,使得数据提升内部的优化管理,数据中台是企业数字化转型的第一步。国内大量的企业由于系统建设的烟囱式导致了各个系统存在数据孤岛,后端的精英决策层无法实时的掌握前端业务的变化,因此需要一套统一的数据中台来整合数据、整合产品,形成数据共享,为敏捷型业务提供快速决策的支持,这套方法论其实最早由阿里巴巴从国外引进并应用在整个体系中,之后才得以在国内推广。下图是一个典型的数据中台的架构,按照从本地的硬件存储和云服务的存储层—>计算层->数据治理层->数据应用层->业务应用层逐层上升的模式架构而成。详细解释一下Hadoop和MPP的概念。Hadoop最早是Apache基金会开发的一个分布式的系统架构,它实现了分布式文件系统,简称HDFS,最大的特性是利用计算机集群来进行高速计算和存储,其核心是HDFS和MapRece,HDFS是海量数据的存储、MapRece是海量数据的计算。Hadoop技术的开发初衷是雅虎、谷歌等互联网公司为了做海量的互联网数据处理而设计的。2005年将之开源,很多公司例如MapR、Cloudera以及星环等都是利用Hadoop技术做商业化的应用。接下来是MPP数据库,MPP的字面意思就是大规模并行处理,主要用于实时计算场景,它和Hadoop最大的区别在于Hadoop是存储和计算都彻底分布,MPP则是计算分布、存储集中。MPP数据库分为两个流派:一个是有主节点的,以Greenplum为主;第二个流派是无主节点的,以Vertica为主。简单比较一下MPP和Hadoop:MPP是将任务并行的分散到多个服务器和节点上,每个节点各自计算,然后汇总一个结果;Hadoop应用在海量数据进行非实时的计算,它支持结构化和非结构化的数据,像互联网公司以及数据量巨大的跨国集团,都非常适用。二者相比,MPP更加强调的实时计算,它其实是中型规模的数据运算,主要支持结构化数据,尤其是像银行、证券、保险、基金等金融机构,强调数据计算实时性,普遍都会用Vertica和Greenplum。04 数据库发展趋势首先,由于 MPP和Hadoop各有优劣势,于是有创业公司尝试把MPP和Hadoop结合在一起使用。例如偶数科技利用了Hadoop的海量结构化和非结构化的特性,同时又利用了MPP实时性的优势。第二个趋势是数据库都在从集中式逐渐转到分布式。Gartner的报告中指出以下三点原因:第一点,随着数据量的增加,硬件性能的瓶颈,尤其是摩尔定律的限制,传统的集中式架构完全无法满足客户的要求,不论是数据库还是整个应用软件,都有从集中式转分布式的趋势;第二点,由于数据库设计的理论存在CAP理论,即数据库的一致性、可用性、容错性三者不可兼得,那么未来数据库一定是一个分散的市场,每家的数据库一定是各有侧重点;第三点,随着业务的发展变化,未来交易型数据库和分析型数据库会逐渐融合, AP和TP在融合,所以HTAP必定是数据库的一个未来的发展方向。第三个发展趋势是从SQL到NoSQL。Oracle、MySQL、SQL Server大部分是二位表结构,使用SQL语言,但是随着数据量的爆发式增长,像影音、文档、流媒体大幅度增加,Gartner认为数据未来一定是从SQL到NoSQL的方向发展,包括:文档数据库、健值数据库、图数据库和时序数据库。第四是关于NoSQL的发展趋势,根据DB Engines第三方的统计,图数据库是发展最快的,搜索数据库紧随其后,第三是文档数据库,第四是健值数据库。在图数据库领域有两家明星公司——硅谷的Tigergraph和Neo4j,Tigergraph上一轮估值三亿美金,由百度华创投资;还有就是文档数据库,代表性公司MongD已经是上市公司,估值92亿美金,收入2.6亿,可以看到在这个领域存在能够实现国产替代的机会。对数据库发展进行总结和回顾:首先,做数据库行业需要长时间的积累,例如Oracle从1978年开始至今已有40多年的历史,才发展成如今的规模;第二,做数据库一定要有一个生态,自从X86替换小型机,DB2的市场份额逐渐下降以及软硬件分离的趋势,导致Intel、微软的操作系统得以普遍应用,在此生态下才有Oracle、MySQL发展壮大的机会;第三,做数据库需要长时间的持续性投入,要几十年如一日,例如蚂蚁金服的Oceanbase、华为的高斯、腾讯的TBASE都做了很大的投入。关于数据库行业的探讨:第一,在数据库领域,国产数据库发展还比较缓慢,在党政军领域应用较多,而在金融机构领域应用较少。国产数据库长期被Oracle、IBM、MySQL这类产品挤压,随着中美贸易战的升级、国家鼓励软件国产化,国产软件将会越来越被重视,这将是一大转变契机;第二,在国产数据库的OLTP领域,华为、阿里、腾讯等厂商有技术优势和资金优势,同时也有生态和渠道的优势;第三,创业公司进入OLTP领域门槛非常高,而在 OLAP领域,建立新一代数字据仓库以及NoSQL数据库方面,未来会涌现更多的创业公司,这块可能是很多投资机构接下来要重点关注的方向。05 数据库和数据分析领域的优秀标的数据库和数据分析行业有几家比较优秀的标的公司。第一个是偶数科技,常雷博士最早在EMC、Pivotal做MPP数据库研发,后来他在Apache基金会做了一个HAWQ开源的项目,成功结合了MPP的实时并行计算技术优势和Hadoop的可扩展性,最后将其进行商业化,成立了偶数科技。全球很多大型金融传统行业都在用其技术,偶数科技成功拿到了红杉红点的A轮融资并且已经融到了B轮。Kylingence是韩卿的创业项目,他最早是eBay中国区的员工,后来在Apache基金会做开源的Kylin项目,具有相当成熟的项目经验,该公司已经融到了C轮, 巨杉数据库2011年成立,总部在广州,王涛来自IBM DB2核心团队,主要做金融级分布式数据库,已经进入了500多家的企业,其中包括50家的大型金融机构,恒丰、广发、民生等很多金融机构都在用巨杉数据库。通过公开资料可以了解到,目前国内比较好的数据库公司包括:实时数据、流数据处理比较好的有巨杉、柏睿、人大金仓、南大通用、达梦、热璞数据库;分析型OLAP有星环、偶数、Kyligence,创邻科技;数据中台则有数澜、吉贝克、御数坊、智领云、聚云位智;数据库服务领域有云和恩墨、天玑、爱可生。大数据公司列表(公开资料整理)如下图,是对标的已经上市的大数据公司估值和融资情况,这些都是国产数据库未来的标杆:例如MongoDB是一个商业化公司主导的项目,同时做开源和商业化的版本;Mongo2007年成立,现在已经估值达到超过77亿美金,收入2.67亿;Oracle是一个长牛股,市值过千亿并且还在快速发展,国内的做基础架构软件的公司都在分析学习Oracle;最后是图分析领域,前文提到的Tigergraph和neo4j两家明星公司,现在中国银联、VISA、Mastcard很多金融机构都在用图分析做风控、做反欺诈,这个领域在未来有很大机会能够实现国产替代。对标的大数据公司估值情况(公开资料整理)Q&AQ:中国的国产数据库很多是源于开源的数据库,中国数据库能不能发展出比较大的开源生态?党成磊:首先中国有全球最大的消费市场,有PC互联网、移动互联网的人群,不论2B还是2C,我认为未来数据库一定有发展的土壤和前提条件;其次,从现状来看,像PingCap等很多创业公司,以及华为、阿里腾讯等大型公司和越来越多的金融机构都在使用数据库;三是IBM、Oracle、MySQL、SQL Server等外资大厂为中国培养了大量的数据库研发人员,再加上国家层面对国产数据库的扶持政策,相信中国数据库能发展出比较大的开源生态,生态会越来越完善。Q:现阶段这些创业公司有没有机会去挑战大厂,突破以前国产数据库厂商的天花板?党成磊:首先还是回到业务场景上来,先说金融机构,电信、电力、能源、交通、铁路这些数据密集型的行业,这几年都在干一件事——从大型机、小型机往X86迁移,在这个过程中不管是Oracle还是IBM的DB2,分布式将是一个必然趋势,例如巨杉、PingCap等公司都在做分布式关系型数据库,这是一个技术发展的必然趋势。另外随着数据量的增大,尤其是银行,原来银行业务主要是存款取款,现在银行还有理财、买基金、买电影票、交水电煤气费,信用卡分期等业务,传统Oracle集中式关系型数据库并不能很好满足的业务场景,创业公司从分析型数据库切入,是逐渐蚕食Oracle的一个方法。这次中美贸易战,自从去年Oracle把很多美国敌对国家的数据库服务停掉以后,这给国内数据库厂商很大警醒,长远来讲中国肯定还是要有自己的数据库。Q:Oracle、DB2被替换掉以后,国内自研OceanBase、高斯、TIDB和MySQL生态的竞争会如何?自研生态中大厂和创业公司的竞争会如何?党成磊:这是两个应用场景, OceanBase现在所有的客户全是金融客户,是金融关系型分布式数据库;而高斯其实是从开源上重构而成,在电信和金融行业应用得比较多;TIDB目前是在互联网行业应用较多。第二个方向其实是MySQL生态,互联网公司更倾向于使用MySQL,国内厂商做实施、集成、应用和服务。从竞争角度来讲,自研生态的技术壁垒更高,商业化和用户付费的意愿更强,所以自研生态的大厂像华为、阿里、腾讯有天然的优势。创业公司需要把产品做得足够好,还有大量的数据场景限制,大厂综合实力上比较强也有渠道销售优势,创业公司一定是自己的产品过硬,比如像PingCap或者巨杉这样解决了客户的痛点,在大厂综合实力没有那么强的时候,创业公司才能胜出。所以这个领域,我觉得确实是大厂拼综合实力,创业公司拼技术。Q:CAP理论是否可能被冲击?云数据库未来的发展,怎么看?党成磊:以阿里为例,有足够多的技术积累也有足够多的资金支持,在满足一致性和容错性的时候并没有牺牲高可用,而是用其它软硬件方案弥补。而CAP理论是整个数据库设计的基础,至少说这几年内在数据库设计原理方面还没有特别大的突破。云化会不会对传统数据库的理论、架构造成冲击,这方面多多少少是有的。首先看到现在AWS云和谷歌云上都有很多数据库,云化是一个未来,云化也会蚕食传统数据库很大一部分的市场份额,但是从技术上能不能去颠覆,还有待进一步观察和研究。钛资本研究院观察数据库的研发与应用场景密切相关。今天,中国数字经济规模已经达到32万亿,相当于GDP的1/3,涌现了大量新零售、新金融、新制造等数字业务场景,而这些场景从创新程度、创新规模和用户体量来看,都居世界前列。随着消费互联网向产业互联网的推进,消费互联网的数据库技术也在向产业和企业互联网场景演化,特别是工业互联网、车联网、物联网等大规模产业和企业互联网,都为数据库创新提供了前所未有的机遇。近期又逢《中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见》发布,其中第六部分是“加快培育数据要素市场”,这标志着中央给“数据”以新的历史定位,不再视其为信息化的产物,而是上升到了生产要素的重要地位。数据要素的新定位,将为中国数据库技术发展释放政策红利,数据库与数据分析将是长期看好的创业投资领域。【钛媒体作者介绍:钛资本是专注于企业级科技的投资银行和管理咨询服务平台。微信公号:tmtcapital】

处女星

睿帆科技发布分布式分析型数据库雪球DB

8月27日,在由中国国际大数据产业博览会组委会主办的2020“数博发布”活动上,睿帆科技自主研发的“分布式分析型数据库雪球DB”正式发布。近年来,大数据已成为国家重要的基础性战略资源。海量的数据是政务管理、企业数字化转型的核心生产因素,但现阶段,真正被有效储存、使用的数据还不到10%。如何唤醒大量“沉睡的”数据,并从中寻找、分析有价值的信息,促进业务发展,无疑是一个巨大挑战。目前,行业头部企业的数据每年以PB级甚至上百PB爆炸式增长,催生了对于PB级数据量在线或实时数据分析的处理能力的需求。面对庞大的数据量,很多企业早期主要通过抽样数据来获取结论。抽样之后的数据变成了百万级或千万级,是原始数据的一个子集,和实际情况会有很大偏差,导致根据样本得出的结论可靠性大大降低。为了追求数据的准确性,有的企业不得不降低数据处理的实时性,采用离线处理的方式。但数据的价值就在于其时效性,越早分析越能得到快速准确的反馈或响应,并及时利用结论指导后续的业务工作。此时,一款针对海量数据进行毫秒级在线即席查询分析的数据库就显得尤其关键,它甚至决定了企业是否能以比竞争对手更低的成本、更快的速度解决问题,构建起核心竞争力。因此,睿帆科技的“分布式分析型数据库雪球DB”应运而生,它是是一款PB级在线高并发极速即席查询的联机分析处理(OLAP)的MPP列存数据库,可提供PB级别大数据集的在线多维查询和分布式存储,特别适用于海量结构化数据存储、高并发查询、高吞吐即席查询(Ad-hoc)、多维分析和实时查询场景。它能够实现PB级数据超高的压缩比,节省硬件成本,同时打破传统架构的读写瓶颈,实现毫秒级反应结果。据了解,2020“数博发布”是“永不落幕的数博会”2020系列区域性活动的重要板块。根据活动安排,于5月至9月举行数场企业自主发布活动,采用线上和线下结合的形式,重点发布大数据企业新技术、新产品、新应用、新成果。【相关链接】睿帆科技发布分布式分析型数据库雪球DB(视频)

迷魂曲

Gartner研究报告:腾讯云数据库增速国内第一

近日,国际研究机构Gartner公司发布《The Future of the Database Management System (DBMS) Market Is Cloud》研究报告显示,腾讯云数据库市场份额增速达123%,位列国内所有数据库厂商之首,在全球范围内保持了连续两年增速前三的迅猛势头。就在不久前,另外一家国际机构最新发布的《The Forrester Wave: Database-As-A-Service, Q2 2019》中,腾讯云数据库首次入选即被评为“实力竞争者”。技术水平支撑产品研发腾讯基于强大的技术研发水平以及业务支撑,诞生众多明星产品,不仅技术层面达到业内领先水平,成本层面也得到大幅降低。腾讯云数据库产品分布去年11月,单节点读性能达到130万QPS的云原生数据库CynosDB发布,超过业内目前最高100万QPS水平。该数据库融合了传统数据库、云计算和新硬件的优势,支持无限量存储、百万级查询和秒级的故障恢复,而价格只为市面上商业数据库的1/15。云原生数据库CynosDB产品架构图另外,随着5G时代的到来,针对物联网、大数据等海量时序数据的场景,腾讯云推出时序数据库CTSDB,不仅可以降低数据存储成本也能简化日常运维工作。作为一款分布式、高性能时序数据库,CTSDB在高并发写入、冷热数据、物联网等场景等做了大量优化。作为腾讯唯一的时序数据库,CTSDB 支撑了腾讯内部20多个核心业务,包括微信彩票、财付通、云监控、云数据库、云负载等。足以证明CTSDB可以稳定支撑物联网的海量数据场景。除此之外,针对日益火爆的小游戏市场,腾讯云自研文档数据库是国内唯一提供表级监控的云厂商,也是国内唯一提供库表回档服务的云数据库,为客户提供更细粒度回档服务。目前,腾讯云自研文档数据库已经支撑数款日活峰值2000w且流水上亿的微信小游戏。用户规模增速呈加速态势过去几年,基于在云数据库领域的技术、产品、生态积累,越来越多的企业选择将核心业务系统托付给腾讯云数据库。目前,腾讯云数据库业务基本覆盖电商、金融、游戏、O2O等全行业,微众银行、小红书、猎豹、每日优鲜、听云、搜狐畅游、蘑菇街、猫眼等大中型企业都大量使用了腾讯云数据库服务。以微众银行为例,作为国内首家互联网银行,在腾讯云多项技术能力的支持下,微众银行在2015年成功打造出国内首个基于云计算技术和分布式数据库的银行分布式核心系统架构,该架构实现了多项行业创新。微众银行测试环境和开发环境部署在腾讯云提供的金融合规云机房里,可以按需使用,按量付费,生产环境的机房则采用了腾讯云的计算机服务,有效地达到控制成本的目的。数据库则采用了腾讯云金融级数据库TDSQL,光是这一项支出,相比传统数据库就节约了50%以上的成本。腾讯云数据库地域分布开放和自主可控兼备Gartner报告明确指出,当下云是管理数据的默认平台,内部部署的传统模式已成为过去式,云增长极大地改变了供应商的排名。在各大企业逐渐加速上云的背景下,云数据库作为企业IT基础设施,重要性不言而喻。腾讯云数据库在核心技术能力上,基于自主研发,兼容最主流的开源技术,让企业可以选择自己的技术路线,支持联合创新。同时,重视和提升数据价值,从数据的保护和挖掘方面,围绕数据构建全链路的数据应用及服务能力。除了数据库之外,腾讯云目前在整体云计算市场的拓展呈现加速态势,在最新的云原生、边缘计算、大数据、人工智能、物联网等领域呈现整体爆发态势。

故强哭者

国产数据库崛起 Gartner!

近期,Gartner陆续发布了2018年的数据库系列报告,包括《数据库魔力象限》《数据库核心能力》以及《数据库推荐报告》。今年系列报告对于数据库产品的观点主要有以下几点:数据库在下一阶段的IT基础架构中的地位会不断提升,特别是随着云和分布式架构逐渐普及,数据库在私有云、公有云等企业技术架构平台中将发挥更为重要的作用。超90%入选Gartner报告的数据库都为从零自研产品,这既有技术发展可持续性的考量,也是技术产品商业化的一个重要前提。大企业级市场需求持续强劲,对数据库提出众多新需求和新挑战。新兴数据库产品抢占更多市场空间,特别是开源、云化和分布式的数据库,保持快速的增长。其中,企业级的新一代数据库,在新一代数据库技术发展中,通过场景的迭代,正在占据更多的市场份额。区域性产品,特别是亚太和中国的数据库产品,拥有很强的竞争力,并且保持了快速的发展,向全球市场进行突破。在今年的数据库系列报告中,中国数据库的比重不断增加,继2017年首次中国3家数据库产品入选报告后,今年的总上榜数据库产品达到了5家。其中,SequoiaDB巨杉数据库作为业界领先的金融级分布式交易型数据库产品,连续两年入选。此前,SequoiaDB巨杉数据库于2017年首批入选Gartner报告的中国数据库厂商,和阿里云数据库是仅有的两家连续入选报告的产品。金融级用户认可是决定因素Gartner对于核心应用场景尤其看重,经过大型银行这样的技术要求最严苛、市场需求最大、安全和监管要求最谨慎的行业的应用是数据库产品的唯一“试金石”。过去一年,巨杉数据库保持了创新和快速发展。巨杉数据库的技术领先性、金融级稳定性、安全性以及产品市场成熟度持续得到了行业的高度认可。目前,巨杉数据库付费企业级客户与社区用户总数超过1000家,并已在超过50家500强级别的银行、保险、证券等大型金融机构核心生产业务上线。巨杉数据库目前业务场景包括分布式核心在线交易、分布式内容管理以及数据中台、数据湖、云数据库平台等。这些场景均在大型商业银行业务实际落地,许多场景的应用类型和技术要求甚至大大高于海外同类金融企业,这也是Gartner十分认可我们的一个重要点。原创是重要标准超90%入选Gartner报告的数据库都为从零自研产品,这既有技术发展可持续性的考量,也是技术产品商业化的一个重要前提。巨杉数据库在6年的时间里,坚持从零开始打造分布式数据库内核引擎,得到了业界和市场的一致认可,也代表了中国基础软件领域的“原创力量”。巨杉数据库同时也大力发展开源技术社区,搭建开源技术生态。架构与技术创新是基础除了金融级用户以及场景,Gartner对于数据库技术和架构的发展判断也是业界的“风向标”,这也是判断数据库产品的最基础因素。SequoiaDB巨杉数据库作为一款分布式交易型数据库,技术维度包括交易型 NewSQL、分布式对象存储与高性能分布式NoSQL。其中,原生的分布式multimodel数据库引擎也提供了结构化、半结构化、非结构化数据的全覆盖。SequoiaDB 3.0版本中,巨杉数据库采用和AWS Aurora同样的计算-存储分离架构,这是分布式云数据库当前的主流架构。此外,SequoiaDB还提供了HTAP混合事务、分析处理,快速实现业务应用的弹性开发,提供原生异地容灾备份和多活,可满足“三地五中心”的容灾支持和双中心同时读写。附录:2018年入选报告产品榜单在今年的数据库系列报告中,中国数据库的比重不断增加,继2017年首次中国3家数据库产品入选报告后,今年的总上榜数据库产品达到了5家。小结数据库产品已经成为下一代企业架构转型的最核心部分。对于中国的数据库产品,一方面随着金融、互联网等大型行业中对大数据、人工智能、移动互联网等应用的快速发展,在业务层面得到了更多的磨练和迭代,帮助产品不断的创新和发展;另一方面,中国在基础软件领域的技术、人才积累逐渐成熟,在核心技术能力上已经逐渐比肩甚至超过海外产品技术团队。未来,相信国产数据库会在更多领域占据主流,在数据库领域占据更重要的地位。连续两年入选报告后,未来巨杉将持续投入核心研发与技术创新,立足于金融行业覆盖其他垂直领域市场,拓展更多企业级应用场景,加速国际化步伐,将巨杉数据库打造成为世界级的分布式数据库产品。

吕柟

伸手党福利,19个大开眼界的消费研究数据源请拿好

文/Ritika Puri数据是洞察商业、激发创意乃至发现意外趋势的利器。许多人回避使用数据,是因为数据源的缺乏。本文列出了19个最易于理解和便于访问的公共数据源,还不赶紧点击收藏!数据是非常强大的工具。统计数据可以用来支持您所做的陈述,图表可用作可视化内容并吸引受众。几乎所有最受欢迎的信息图都基于数据和统计来传达信息。在阅读本文时,请记录下那些对您的内容营销有用的数据源。对于任何使用信息图、数据和统计优化内容的人来说,这是一个很棒的文章。我们面临的最大挑战之一是我们的观点、看法往往局限于直接经验。这就是需要使用数据的地方:展示我们“眼睛”看不到的死角。数据是我们走出舒适区并挑战自我假设的最佳方法之一。然而,我们在互联网上遇到的大多数数据往往不够客观。通常,“有私心”的营销人员以可信的调查为幌子发布公关研究。由于代表性不足的样本、零有效性测试,和最小可靠度等指标的问题可能会造成研究结果混淆视听。不要让糟糕的数据拖累一个超棒的营销活动。仔细选择您的数据源,注意检索信息的关键词/条件。无论您是否正在检查,遵循数据来源将引导您通向正确的方向:一个新的商业风险投资市场研究有用的基于数据的内容创建信息图1.The U.S. Census http://www.census.gov/如果您想要查询人口统计数据,先来看看美国人口普查(U.S.Census)吧。多年来,营销研究公司使用这些数据来回答关于商店位置、人口模式增长、就业、通勤时间、教育等问题。如果您想了解某个特定消费群体或地理位置的情况,美国人口普查(U.S.Census)网站一定不容错过。您甚至可以使用像ArcGIS这样的工具在地图上验证普查数据,其权威性如同您通过“纽约时报”看到的效果那样。2. ArcGIS Open Data http://opendata.arcgis.com/如果您正在寻找有关学校、公园服务、当地企业和街道的数据,请查看美国各地市政府的数据集合。如果您正在寻找一个实体店面的最佳位置或者了解一个特定的大都市区,该资源将帮助您找到您所需要的。试试创建一个很酷的信息图,找到您的下一个业务目标。3. Pew Centerhttp://www.pewresearch.org/topics/多年来,皮尤中心(Pew Center) 一直在进行和发布有关政治、健康、收入、社会价值观、社交媒体和在线消费者行为的调查。例如,当您正在围绕数字鸿沟的变化寻找详尽的宏观层面的趋势时,就去查找这些报告和数据集。这些信息将为您提供宏观层面的美国消费者行为的社会趋势。请在您的博客文章、投资者报告、白皮书和信息图表中使用此数据源。4. Think With Googlehttps://www.thinkwithgoogle.com/tools/如果您需要一些演示文稿的基准或者想要分析广告行业的趋势,请查看Google研究工具的汇总。这些信息可以帮助您了解消费者的在线行为,以及在哪里购买您品牌的产品或服务。它可能为创业者提供产生营销活动创意(例如针对移动端或YouTube使用)的关键信息。您甚至可以使用Google的工具来创建演示所用的信息图表。5. Factual https://www.factual.com/Factual拥有来自世界各地超过6500万个位置的数据。通过Factual,您将获得的是一个提供位置信息的货真价实的大数据集。您可以使用这些数据来支持产品开发、研究或广告营销活动。虽然Factual的数据是付费产品,但潜在用户可以申请免费的API密钥。您可以使用此数据对那些业务相关的位置进行研究。6. 美国政府数据Data.govhttp://www.data.gov/如果您正在查找美国政府的数据,先看看这里吧。该平台拥有多种格式的海量数据集。您可以浏览与消费者、健康、商业、气候、制造甚至农业主题相关的数据。企业可以将此数据源用于一般性行业研究。7.国际政治和社会研究联盟 ICPSR https://www.icpsr.umich.e/国际政治和社会研究联盟(ICPSR)收录了来自760多所大学、政府机构和其他机构的政治和社会研究数据。数据库中有8000多项调查研究,但请务必仔细检查许可条款,以确保数据集可供商业使用。要访问ICPSR的数据,您需要成为其中一个参与机构的成员。请联系您的大学校友办公室以确认您是否符合资格。8.可编程网Programmable Webhttp://www.programmableweb.com/想要查找API?可以在这里查看关于API的几乎各种使用案例的目录。从旅游到社交媒体、体育,赌博,食物,财务和音乐,您都可以通过浏览本网站找到所需的API。不过请注意,您需要使用API provider检查每个列表。因为,可编程网(ProgrammableWeb)上的API列表可能已经过期。另外,您可能使用免费权限导致访问受限。如果您想要高级功能,则可能需要付费访问。这个资源能够帮助创业者找到能够更快速完成商务计划的API。9.纽约时报The New York Timeshttp://developer.nytimes.com/docs如果您想要查找与内容有关的数据,“纽约时报”(American New York Times)有一个API,可以访问1851年以来的文章。您可以检索与书籍、竞选经费、社区评论、地理位置甚至活动列表相关的信息。这些数据对于基于内容的研究特别有用。10.谷歌公共数据浏览器 Google Public Data Explorerhttp://www.google.com/publicdata/directory如果您正在查找与全球人口趋势相关的数据,请使用Google’sPublic Data Explorer开始您的搜索吧。您可以在这里浏览很多关于世界发展指数和经济数据的数据源,比如欧盟统计局(Eurostat),德国联邦统计局(Destatis),爱尔兰中央统计局(Central Statistics Office ofIreland)和世界银行(TheWorld Bank)。该资源对需要查寻国家级数据的任何人都有帮助。11.Webscraper.iohttp://webscraper.io/Webscraper.io本身不是数据集。它是一个Web插件,您可以使用它抓取相关网站并创建自己的数据集。使用免费的Chrome扩展程序,您可以通过CSV获取想要导出的数据。无需手动收集数据,推荐使用这个资源。12.LendingClubhttps://www.lendingclub.com/info/download-data.actionLendingClub持续收集贷款市场的的公共数据集。您可以通过浏览被拒绝的贷款申请和进行中的贷款申请,了解人们需要的贷款类型和原因。这些数据可能有助于一般行业研究,甚至还有助于内容营销。13.Yahoo! Webscopehttp://webscope.sandbox.yahoo.com/index.php雅虎实验室为非商业用途提供一个“科学有用”的数据库。您可以研究与语言、社交媒体行为、计算机系统和图像有关的信息。所有数据集已经过审查,符合雅虎的数据保护标准,包括对隐私的严格控制。此数据仅用于个人学习,请不要在商业上使用。14.Public Datasets on AWShttp://aws.amazon.com/public-data-sets/云端存储提供商拥有许多可免费访问的公共数据集。受欢迎的公共数据集(publicdata sets)包括中等分辨率卫星图像、NASANEX、网络爬行数据和人类遗传变异的详细图谱的集合。如果您使用其中的任何数据集,请注意查看每个数据源的条款和条件。15.Reddit Datasetshttp://www.reddit.com/r/datasets/new/如果您正在寻找研究报告,请试试Reddit社区中的数据集合吧。您可以根据最新、最热、上升或有争议等多个维度筛选数据集。这些数据集包括澳大利亚的酒精饮料、德克萨斯州的饮水资料和开放的网络爬虫等,推荐使用该资源来监测和发现可能与业务相关的数据集。16.Complete Hacker News Historyhttps://github.com/arnauddri/hn该项目包含有关顶级故事、队列、提交内容、活跃用户,字数和业力的相关信息。您可以使用此数据来了解全球创业社区中受欢迎的内容类型。创业者可以利用这一资源来确定公关机会,并分析流行的内容类型。17.Social Network Analysis Interactive Dataset Libraryhttp://www.growmeme.com/overview该资源提供了一个与300多个社交网络相关的数据集的开放库。任何人都可以下载或更新数据。但是,这个资源的导航设计不太友好,所以在使用的时候需要多一些耐心。界面上会有一个参考表为用户提供帮助。这些数据可以帮您了解您的受众群体如何使用社交媒体。18.Quandlhttps://www.quandl.com/该平台提供了从比特币接受度到商品、市场、货币、汽油和金属等各种主题的免费数据。虽然许多数据集可免费提供,但公司通过向niche来源提供有偿访问来获利。该资源有助于对特定行业感兴趣的创业者。19.Datahubhttp://datahub.io/organization该资源汇聚了来自世界各地的数据源,由开放知识基金会(Open Knowledge Foundation)提供支持。从开放的考古学到药物使用数据,您将能够找到随机的信息收集。但是,该网站浏览体验不太好,许多数据集描述都是模糊的。请将您的搜索限制到一组非常具体的信息。结语如果您想要查询具体的相关业务数据,查看自己内部的客户数据集是最好不过了。请负责工程或数据科学的同事帮助您检索所需信息,以应对业务上的挑战。无论您在哪里采购数据,那些背景信息都至关重要,请确保仔细检查您考虑使用的每个资源的方法和使用权。注:本文编译自《19 Sources for eye-opening, credible consumer research data》,关注DT数据侠点击“阅读原文”查看原文。加入数据侠“数据侠计划”由第一财经数据新媒体DT财经发起的数据人社群平台,旗下有数据侠专栏、数据大咖及爱好者社群、线上线下“数据侠实验室”系列活动等项目。

没阶

从Gartner报告看中国数据库:差距虽在,“狼性”凸显

【IT168 评论】基础软件在软件产业中的地位就如同一座建筑的地基,其重要程度可见一斑,但中国基础软件市场却长期被国外软件巨头所垄断,国内企业和用户不仅在使用和成本方面会受到国外厂商的掣肘,在信息安全方面更是存在着很多隐患。因此,如何摆脱对国外基础软件的依赖、研发国产优秀基础软件就成为了人们关注的焦点。近日,Gartner发布了2018年的数据库系列报告,《数据库魔力象限》、《数据库核心能力》和《数据库推荐报告》。在这一系列报告中,我们看到了5家国产数据库厂商的身影,分别为阿里云、华为、巨杉数据库、腾讯云和星环科技。从0到5,国产数据库的Gartner之路经历了什么?从冲入Gartner报告中的数据库厂商中,我们可以提炼出哪些关键词?与Gartner预测的发展趋势相比,国内数据库发展现状如何?从0到3,从3到5,中国数据库的Gartner之路Gartner是全球权威的IT研究与顾问咨询公司,每年都会推出IT行业的各种报告以及众人皆知的Gartner魔力象限。Gartner数据库报告由来已久,但是直到2017年中国数据库厂商才第一次出现在报告中。Gartner 2017年的数据库系列报告中共出现了3个国产数据库,即AsparaDB、GBase和SequoiaDB,对应的厂商分别为阿里云、南大通用和巨杉数据库,而在今年的Gartner数据库系列报告中,我们发现上榜的数据库厂商已经增至5家,其中有两家是我们熟悉的阿里云和巨杉数据库,剩下的3家分别为腾讯云、华为和星环科技。为什么中国数据库厂商是在2017年这个时间节点才出现在报告中呢?众所周知,中国数据库起步较晚,且数据库的技术要求很高,Oracle、IBM、微软等老牌厂商凭借先发优势在市场份额中占据了有利位置,此情境下中国数据库想要突围必定需要一个机会点。而云大物智等新技术和新场景的适时出现恰好点燃了中国数据库的发展,巨大的市场和庞大的用户群体及需求给了国产数据库发展的土壤,Gartner看到了中国数据库技术在过去几年的快速发展,才决定在2017年首次将中国数据库厂商纳入到调查中。“从0到3,从3到5”,这只是中国数据库Gartner之路的开始。事实上,随着去“IOE”和数据安全等话题的持续发酵,中国数据库领域的初创企业和跨界选手很多,而在这其中的“能力者”也并不在少数。鉴于Gartner是刚刚将中国纳入调查范围以及调查的复杂性(包括技术先进性、产品成熟度、市场规模、营收状况、企业应用案例和全球化布局等维度),很多厂商都来不及准备参评,相信在今后的报告中我们可以看到更多中国数据库厂商。面对Gartner严格的评选标准和复杂的评选流程,巨杉数据库虽然已经是连续两次入选Gartner数据库报告了,但是CTO王涛在接受采访时也忍不住“吐苦水”,“光是准备参评Gartner报告的资料就要花费大量的时间和精力,实在是一场‘大工程’啊!”细读Gartner数据库报告,我们可以提炼出哪些关键词?从整个数据库发展历程来看,中国的数据库发展起步虽晚,但发展速度很快,并且中国有很多催生数据库技术发展的场景是国外所不具有的,例如双十一。如果我们横向去看此次入围Gartner报告的5家厂商,有很多关键字就跃然纸上。关键词一:原创据相关数据显示,在过去的几年中,数据库领域的新厂商和产品已经有数百个。而从国内的情况来看,整个数据库研发的热情也是很高涨的,不仅有专注于数据库的厂商,也有大数据、云计算厂商跨界。从入选Gartner报告的数据库产品来看,超过90%都是从零开始研发的。如果我们把目光聚焦在入选的5家国内厂商,巨杉数据库的金融级分布式数据库SequoiaDB和阿里云的新一代关系型数据库POLARDB 都是完全自研的。关键词二:开源Gartner在评选产品时并未规定DBMS必须是闭源产品,商业支持的开源 DBMS 产品也被包含在内,所以我们在报告中也看到了很多提供开源数据库商业支持的厂商,例如各大云计算厂商提供的多种数据库服务。当然,也有很多自研数据库的厂商选择将自己的产品开源,SequoiaDB就是其中之一。那么开源数据库是否只在技术方面有长足发展,盈利能力如何呢?对此,Gartner也给出了评价,“到 2020 年,以开源为基础的 DBMS 产品会占 DBMS 总收益的 20%以上,同时对主流买家的吸引力也会提升。”关键词三:客户评价客户评价是Gartner评选产品或厂商的重要维度。笔者认为这里的客户评价可以分为两个部分来讨论,一个部分是产品的丰富度是否足够客户选择,另一个是部署之后,产品和服务是否能够获得客户的高度评价。一般来说,云计算厂商提供的数据库服务都会相对比较丰富,以阿里云为例,Gartner在其优势中明确写道:“广泛的产品组合,阿里云是在MagicQuadrant 中拥有最大DBMS 服务组合的云服务提供商(CSP)。”可以说,阿里云能够入选,丰富的数据库服务绝对占据了重要功劳。而第二种客户评价,Gartner往往会根据厂商提供的客户名单做回访,回访中会向客户提问诸多详细的内容,并依此进行评分。这方面的典型厂商就是巨杉数据库,据Gartner报告中的描述,SequoiaDB在所有供应商中获得了对终端用户培训质量的最高调查分数,而且几乎所有调查得分都高于平均值,获得了整体客户满意度的第三最高分。在2017年Gartner对巨杉数据库的评价中也着重描述了客户评价的部分。关键词四:云今年Gartner数据库报告中的一个显著特点就是云计算厂商整体地位上升,Oracle等传统数据库厂商受到挑战。如果从国内角度出发,云计算厂商的数据库研发热情确实高涨,此次上榜的阿里云、腾讯云和华为其提供的数据库服务均在数十种左右。正是因为云的出现,才给了中国数据库突破现有数据库格局的机会。云数据库按需扩展、按需计费等特征使其获得了中小企业及互联网企业客户。而这种客户和行业的切入,也会反向推动数据库技术的发展。狼性 VS 差距,Gartner预测是否符合国内数据库的发展?针对数据库的未来发展,Gartner给出了四大规划假设:·到2019年,为云数据库管理系统架构所设计的存储和计算分离将作为服务模型(dbPaaS)成为主流数据库平台,也会开始出现本地服务。·到2020年,以开源为基础的DBMS产品会占DBMS总收益的 20%以上,也将会提升对主流买家的吸引力。·到2020年,关系型技术将继续用于至少70%的新应用和项目。·到2023 年75%的数据库都会在云平台上,这一变化将彻底更改DBMS供应商格局。对于这四大规划假设在国内的情况,笔者向巨杉数据库CTO王涛进行了求证:首先,巨杉数据库产品SequoiaDB本身就采用了存储和计算分离的架构,可以说存储-计算分离的架构在中国已经出现本地服务;其次,对于开源DBMS产品的收益和关系型技术的应用的预测,王涛认为如果是在国内场景下达到这个比例不需要到2020年,也许会提前完成;第三,数据库上云更多的是依照每个企业的服务客户群体和发展规划,但不可否认,上云会是数据库厂商的一个新的增长点。如果把中国市场和Gartner的市场预测来对比,中国数据库的技术和应用发展明显更具“狼性”,突破速度更快,但是由历史积淀下来的“差距”也仍然存在。·海外市场份额匮乏:这是中国数据库厂商的通病,厂商绝大多数的业务都是在中国,虽然也有在国外建设数据中心的厂商,但整体在国外的市场份额很低,且有很多在中国提供的产品和功能,并未在全球范围内提供;·自研能力仍弱:数据库技术壁垒高不可否认,但国内数据库厂商自研技术能力还需修炼也是事实。Gartner评价腾讯云主要提供的其他供应商的产品,而不是它自有的;·功能和成本支持:国内云计算厂商在数据库服务种类丰富性的支持方面与国外巨头仍有差距,且在成本方面也没有那么符合期待。在Gartner调查中也有受访者提出了高成本和不均衡的支撑。总体来看,国产数据库虽然在市场份额方面还难以与国际大厂抗衡,但是其发展速度和在部分场景下的技术实力已经处于领先水平,此次入选Gartner数据库报告就是一个很好的例证。附:Gartner报告对国内数据库厂商评价阿里云是一家全球云计算公司,总部位于中国杭州,其国际业务位于新加坡。 它提供了各 种各样的服务,例如用于 MySQL 的 RDS(关系数据库服务)的 ApsaraDB(基于 AlibabaCloud AliSQL),SQL Server 和 PostgreSQL; 云数据库 Redis 版;POLARDB; MySQL 和 PostgreSQL 的 HybridDB;ElasticMapReceforHadoop。 此外,ApsaraStack 还提供本地私有云设施。华为总部位于中国深圳,公司价值数十亿美元,为MySQL、Microsoft SQL Server、PostgreSQL、Memcached、Redis和文档数据库服务(DDS)提供华为云数据库服务。 DDS虽然不符合入选Magic Quadrant的跨地分布要求,但华为在中国市场扩张迅速且已经开始开拓其他地区的市场。在接受调查的客户中,DDS很少与除AWS和Oracle以外的非亚洲供应商产品展开竞争。DDS在用户调查中获得了高分数,定价方法、集成和部署、服务和支持以及培训方面均得分很高。除此之外,在自动数据分配、高速数据获取和事务处理方面也获得了最高分。巨杉数据库 SequoiaDB 总部位于中国广州,提供开源、高可用性、分布式多模的 DBMS(基于文档[JSON]存储模型),旨在能够进行规模分布和弹性扩展。 SequoiaDB支持用于内容管理用例的块存储引擎,支持完整的SQL引擎,完美兼容 MySQL 和 PostgreSQL,支持 JSONAPI。SequoiaDB在北美成立了实验室,并开始了全球市场的扩张。在所有入选厂商中,SequoiaDB许多项得分都高于平均值,并获得了企业客户评价的第三高分,客户特别赞赏其分布式和数据管理的能力。腾讯云总部位于中国深圳,提供腾讯云数据库服务,包括部署 MySQL,MariaDB, SQLServer,PostgreSQL,Redis,Memcached,MongoDB,CTSDB,TiDB 和 Greenplum。此外,它计划提供 Oracle、SQLServer 和 Db2 迁移工具和兼容。由于腾讯提供了其他供应商的产品,而不是它自有的,所以腾讯没包含在今年的 MagicQuadrant 中。尽管腾讯云在北美、南美、欧洲、日本和澳大利亚设有数据中心,但其绝大部分业务都在中国。接受调查的客户对腾讯云的整体满意度、价值、产品能力、最终用户培训(有些评论称数据迁移服务的文档需要改进),以及编程的简易性的评分都低于平均值。在定价方法,集成和部署的得分达到了平均分数。受访者对其定价、服务和支持(通常被认为是“免费”)、 专业服务、安全性能和高速事务处理给出了积极评价。星环科技总部位于中国上海,它提供 Hyperbase,一种多模可操作的 DBMS,支 持 JSON 或 XML 中的文档数据类型,以及空间数据类型和对象存储。构建在 Apache HBase 之上的 Hyperbase 还包括一个能部分兼容 OraclePL/SQL 的SQL引擎。 Hyperbase是Transwarp数据中心的一部分,它包括多种数据管理技术,如流媒体、搜索和分析型 DBMS。客户对 Transwarp 的整体评价非常高,尤其是易于操作和编程以及专业服务方面。

不比之又

IDC最新数据库报告:阿里云份额跃居第一 首次超越传统数据库

日前,全球知名市场调研机构IDC 公布了的2019年下半年中国关系型数据库市场厂商份额数据。报告显示,在公有云模式中,阿里云市场份额达50.7%,位居国内第一,超过2至5位的总和。而在公有云+传统部署模式下,阿里云也首次超越老牌传统数据库厂商,位居首位。作为三大基础软件之一,数据库一直保持着高速的增长,关系型数据库仍然是中流砥柱,但在形态上,云原生数据库已取代传统数据库成为市场主流。IDC预计到2024年,中国关系型数据库市场规模可达到271亿元,其中采用公有云部署的关系型数据库市场规模可达到178.21亿元。阿里云是国内最早推出云数据库的厂商之一,至今为止已经形成了完整的产品布局,关系型数据库、NoSQL数据库、数据仓库、数据库生态工具和云数据库专属集群5大板块。 与传统数据库不同,阿里云自研的云原生数据库PolarDB采用存储计算分离、软硬一体化设计,既拥有分布式设计的低成本优势,又具有集中式的易用性,能满足大规模应用场景需求。目前,PolarDB系列已成长为阿里云增速最快的产品之一,其分布式版本PolarDB-X也在阿里巴巴线上核心系统广泛使用,连续多年稳定支撑天猫双11,在1秒钟内系统负载增加了135倍情况下依然保持稳定,峰值TPS达8700万次,但成本仅为传统数据库的1/6。此外,在数仓领域,阿里云自研云的云原生数据仓库AnalyticDB具备良好的弹性、高可用、扩展性以及生态兼容性,可满足从数据处理和分析向实时化与在线化演进和变革。在TPC最新发布的事务与分析混合负载TPC-H基准测试中,AnalyticDB刷新了TPC-H 30TB性能榜单世界纪录,相比第二名性能提升290%。 市场份额第一的背后是用户的满意。目前已有超过10万企业用户的选择阿里云数据库,40多万个数据库实例迁移到阿里云上。中国联通就通过云原生分布式数据库PolarDB-X等技术,重构了中国联通的核心IT架构,实现了对中国联通3.6亿用户的无缝“广覆盖”,成为全球最大的云上BSS系统;某全国性股份制商业银行则通过PolarDB-X支撑信用卡、借记卡等关键业务;国税总局则采用阿里云AnalyticDB实现了全国税务实时分析,推动个税系统改革。目前,阿里云已经稳居亚太云数据库市场份额第一,客户包含政务、零售、金融、电信、制造、物流等多个领域的龙头企业。阿里巴巴保密信息 / ALIBABA CONFIDENTIAL雷锋网雷锋网