数据库是IT行业的核心环节,而甲骨文是商业数据库最有代表性的科技巨头。甲骨文与IBM、EMC公司合作,形成了一条完整的数据库产业链,称作“IOE”架构。可喜可贺的是,我国早在10多年前就开始布局了“去IOE”化。2021上半年中国公有云关系型数据库规模6.7亿美元,叱咤风云的甲骨文,则仅占3.6%。中国企业,有了属于自己的数据生态。但是,数字经济的不断发展,我国自主的数据库产业仍远远不够。
本期的智能内参,我们推荐招商证券的报告《数据库深度复盘与展望》,七大维度全面梳理数据库发展历程,分析国内数据库市场发展趋势。
原标题:
《数据库深度复盘与展望》
作者:刘玉萍
一、七大维度看数据库发展历程
回顾数据库70年发展历程,分布式、云计算、人工智能等创新技术和基础设施的发展陆续为演化注入新活力。以下我们将从数据模型逻辑、技术架构、需求功能、部署方式、存储介质、商业模式、数据库治理模式等七大维度对数据库发展脉络进行详细阐述,理清行业演化逻辑与发展趋势。
▲数据库发展历程
数据模型的演化本质由底层数据规模、逻辑关系、类型等驱动,其路径是:层次->网状->关系->关系、非关系并行。 在当前关系、非关系并行时代,新型NewSQL与多模数据库快速发展。传统SQL受限于其拓展性,在大数据发展下逐渐面临瓶颈, 而NewSQL提供了与NoSQL相同的可扩展性,而且仍基于关系模型,保留了极其成熟的SQL作为查询语言,从而保证了数据的强一致性;同时,基于分布式架构,对接多种数据模型引擎,避免搭建多种类数据库的多模数据库快速发展。
▲数据库模型发展路径
数据库前期的演化史本质上是关系型数据库的演化,关系型数据库已统治市场超过 50年。关系型数据库以二维表形式存储实体和关系,具有易理解、易使用、易维护,自1970年诞生以来,逐步成为业界的霸主。时至今日,关系型数据库不断融入分布式、云原生、AI等新兴技术持续进化,仍是数据库的主流,据DB-Engines热度排名(截至2022/02),前四大数据库Oracle、MySQL、Microsoft、PostgreSQL均为关系型数据库,且分数遥遥领先。
SQL是关系型数据库的标准语言,相比C、Java、Python等编程语言,SQL贴合口语的设计使得其代码复杂度大大简化、便于数据分析人员上手,同时嵌入式的设计也保证了SQL可以被其他编程语言轻松调用,据TIOBE统计,SQL在近20年稳居TOP10编程语言榜单。关系型数据库的二维表数据存储模式为关系型数据库的流行普及提供了环境基础;而SQL语言的流行也反哺了关系型数据库的推广,两者相辅相成,共赢于数据库市场。
▲DB-Engines流行数据库排名前十
随着互联网业务规模快速增长,拥有灵活拓展与高读写并发能力NoSQL数据库得到快速发展。由于传统的关系型数据库在保证数据强一致与系统可用的前提下,其水平扩展能力受到限制;非关系型数据库NoSQL则是基于分布式存储原理,放弃了传统的关系模型,在一致性与可用性之间寻求平衡,从而保证了系统地灵活拓展与高读写并发能力。随着社交媒体等互联网业务快速发展,数据量激增,传统关系型数据库性能逐渐达到瓶颈,因此,以保证拓展性与高并发性能为前提地NoSQL数据库得到快速发展。
为了应对数据的海量增长并追求更低的扩容成本,数据库由单机、集中式向分布式架构快速发展。随着信息化水平快速提升,对数据库的存储、读写并发、扩容要求更高,集中式架构的“Scale Up”纵向扩容机制面临硬件性能瓶颈,因此“Scale Out”式的横向扩容分布式架构成为新趋势,通过网络将物理分散的数据库单元连接为逻辑上的统一整体。从集中式到分布式的演进降低了对硬件性能的要求,使得企业数据库拓展成本大幅降低。
分布式架构由共享磁盘、共享内存架构,逐步向纯无共享架构发展,在无共享架构中,每个处理器私有内存和磁盘空间,利用网络通信,“Scale Out”式横向增加处理器和相应的内存、磁盘,从而避免事务对内存访问和网络带宽的竞争,提高处理性能。国产方面,无共享分布式架构已经趋于成熟,如PingCAP的TiDB、华为的GaussDB、蚂蚁的Oceanbase、达梦的达梦+、阿里云的PolarDB、腾讯云TDSQL、南大通用的GBase、人大金仓的KingBase、中兴通讯的Golden DB等分布式数据库均为MPP无共享架构。
▲各架构对比
需求功能决定数据库逻辑架构,逻辑架构决定访问性能。为实现海量数据存储、在线高并发,并同时支持OLTP和OLAP的功能,HTAP应运而生,按照具体架构可分为3类:
▲HTAP不同架构
根据墨天轮排名(截至2022/02),目前国内前六大数据库均为HTAP+分布式架构,包括PingCAP的TiDB、华为openGauss、蚂蚁OceanBase、达梦的达梦+、华为GaussDB、阿里PolarDB。其中排名第一的PingCAP基于Google的Spanner模型和Stanford的Raft算法研发TiDB数据库,借助底层数据同步及行列透明转换技术,将面向联机交易的行存引擎与面向实时分析的列存引擎融合改造为行列混合数据架构。在HTAP技术浪潮中,TiDB数据库凭借水平线性扩展、强一致分布式事务、故障自恢复的金融级高可用、真正跨数据中心多活等核心特性拔得头筹。
部署方式的演化上,数据库上云成为重要发展趋势。随着云基础设施的成熟和企业解放DBA运维难度的需求日渐迫切,将传统数据库直接部署在云端,由云厂商提供安装和维护服务的云托管数据库逐渐受到业内追捧。据Gartner预测:2023年云DBMS收入将占DBMS市场总收入的50%,75%的数据库将部署在云端。在数据库上云过程中,数据迁移是最大的痛点。针对企业面临的完整性、安全性、一致性等难题,市场催生了安畅网络、数腾软件等提供数据上云迁移的第三方公司。
据IDC统计,2021年H1中国关系型数据库本地部署模式被Oracle、华为、Microsoft、IBM垄断,而同期的公有云部署市场由阿里巴巴、腾讯、AWS和华为领衔。2020年,阿里云陆续推出Lindorm、PolarDB-X、ADB等云原生分布式数据库,是首家Gartner全球数据库魔力象限归入领导者象限的国内厂商。腾讯云研发TDSQL-C,积极拥抱开源,100%兼容MySQL 和 PostgreSQL,实现超百万级QPS高吞吐,助力中小企业,连续两年增速全球前三。华为云深耕金融行业信创,早在2015年就开始部署上线业界首个AI Native的云原生数据库GaussDB。
商业模式上,已逐渐成为数据库产业的共识。2021年1月,根据DB-Engines,全球数据库开源许可证流行度首次超过商业许可证,开源数据库逐渐成为行业主流。截止2021年6月,开源与商业许可证数量分别为198和185个,流行度分别占比51.4%和48.6%。开源有助于扩大人才规模及上下游生态影响力,通过运营开源社区快速获得反馈并加快产品开发、提升产品质量,同时反哺社区开发者及独立软件开发商(ISV)等生态伙伴,能够达到多方共赢目的。据信通院调查:超八成的企业认可开源,开源主要应用在存储、大数据分析和数据库领域。
从2014年起,巨杉SequoiaDB、PingCAP TiDB、百度Doris和HugeGraph、涛思数据Tdengine、欧拉NebulaGraph、华为openGauss、阿里PolarDB、蚂蚁OceanBase等相继宣布开源,国内开源大军不断壮大。
存储介质分类演化:内存数据库提升读写性能。早期数据库将大部分数据保存在磁盘上,使用内存缓存磁盘内容作为临时存储,统称磁盘数据库;随着电商、直播、新闻查询等对读写性能要求高的场景出现,业界对响应速度的要求逐渐提升,将数据全部存储在内存中、数据更新过程不受磁盘I/O限制的内存数据库逐渐成为主流。据Research and Market统计,全球内存数据市场未来5年的CAGR为19%。
自1982年80286芯片推出以来,内存市场历经40年的发展,容量遵循摩尔定律翻倍,价格下降超过百万倍,数据大规模存储在内存中成为可能。国际市场上,Pivotal支持的Redis和SAP的HANA领衔键值对、关系型内存数据库;国内市场上 , 快 立 方 的 Qcubic 和 科 蓝 软 件 的Goldilocks已经应用在运营商、金融、交通等行业。
治理模式分类演化:AI助力数据库自治。以Oracle的Autonomous Database为例,自治驱动自动针对特定负载配置调优、按需扩展提供高可用数据库;自治修复自动检测和防范系统故障、用户错误,在故障发生时自动切换备用数据库,确保数据零丢失;自治安全自动保护敏感和受监管数据,及时修补数据库安全漏洞,有效防范未经授权的访问。
数据安全是数据库建设的重要前提,自动检测、防范系统故障、运维保护和修补安全漏洞对数据库而言至关重要;随着信息化的发展,应用系统和数据规模井喷式增长,数据库的负载调优压力增大。因此,摆脱对DBA的经验决策依赖,基于人工智能自动执行安全、备份、打补丁和其他需要大量人工重复劳作、从根本上彻底消除人为差错、减轻DBA工作压力的自治数据库成为历史的必然选择。目前自治数据库仍停留在事后判断阶段,展望未来,提前预判数据规模增长趋势和数据库负载状况,事前主动调优是自治数据库的发展新方向。
二、三大增量需求,国内数据库突飞猛进
根据信通院数据,2020年中国数据库市场规模为35亿美元(约合240.9亿元人民币),占全球总规模的5.2%。预计到2025年,全球数据库市场规模将达到798亿美元。中国的IT总支出将占全球12.3%。预计中国数据库市场在全球的占比将在2025年接近中国IT总支出在全球的占比,市场总规模将达到688亿元,CAGR为23.4%。
金融、电信、政务、制造、互联网五个行业为数据库行业下游主要需求领域,大数据应用快速发展为数据库提供增长动力。根据信通院统计,其合计市场份额高达80%以上,2020年整体采购额超过192亿元。此外,根据赛迪顾问,2020年国内大数据市场结构数据,其中互联网、政府、金融、电信、工业位列前五,占比分别为48%、14%、12%、9%、5%,合计约88%,大数据应用与数据库需求结构基本吻合,预计随着大数据应用领域拓展与规模持续增长,将为数据库行业规模增长提供充足动力。
▲国内数据库规模预计将快速增长
去年各领域“十四五”规划陆续发布,数据库建设与应用在信息技术、金融、交通物流、农业等众多领域被多次提及,其中数据库标准化攻关的重要性首次被提升到前所未有的高度。随着数据库顶层设计不断加码,十四五期间,国产数据库研发将步入快车道,国产数据库竞争实力将显著增强,行业有望进入加速发展期。
▲强化国产数据库建设在“十四五”规划中被重点提及
未来数据库市场增量需求主要来自于以下三方面:
1、国产化进程逐步加速;
2、传统集中式数据库向分布式架构升级;
3、非关系型数据库应用场景不断丰富,得到快速发展。
以Oracle、Microsoft、SAP、IBM为代表的海外厂商,一直以来,因其产品具有更好的性能、稳定性、安全性、与海外ERP、CRM等更好地兼容性等优势,在企业核心OLTP业务场景一直占据主导地位。近些年,随着国产数据库产品功能、性能水平不断增强,其产品水平已经逐步趋近于海外厂商,根据IDC,在传统关系型数据库领域,Oracle、Microsoft、SAP、IBM合计份额从2019年66.8%下降至2021H1的48.5%,首次降至半数以下,显示出国产数据库技术正趋于成熟,在海外厂商为主导的核心OLTP应用场景,已经逐步具备运营能力,国产化进程持续加速。
根据信通院统计,目前我国金融行业海外Oracle与IBM DB2占比约74%,占据主导,基于MySQL与PostgreSQL二次开发的国产数据库合计占比约为19%,国产化仍有广阔空间。其中,我们通过对金融行业国产化数据库建设案例梳理发现,国产数据库已经从边缘系统逐步实现核心系统国产化,显示出国产数据库产品功能、性能水平不断增强。预计随着行业信创逐步落地,对国产数据库需求将进一步提速。
▲传统部署关系型数据库海外厂商份额不断下降
随着数据类型、规模的指数级增长,传统的终端计算场景已经难以应对 数据存储处理的工作量与复杂度。云计算通过存算分离、资源弹性动态分配、边缘节点计算打破了传统计算场景的瓶颈,实现了当前数据处理的需求,云计算场景的需求推动了分布式数据库的应用发展:通过资源池化管理实现物理或逻辑层的相互隔离与资源的自由伸缩,
1)具备弹性扩张、HTAP事务能力、多租户管理能力、高可用性,与云计算场景需求相匹配。
2)对多种访问接口和数据类型的兼容,可以实现对存储与不同物理服务器、不同格式的数据进行结构与算法的优化,突破服务器类型的限制,为上层不同类型的应用提供多模式的数据服务。
目前,互联网、金融、电信等行业分布式升级进展较快,以金融和电信行业为例,其核心业务数据类型均为关系型数据库,此类集中式数据库所面临的业务体量将呈现爆发性增长。由于单一硬件能力增长有限,所以无法依靠纵向升级硬件扩展存量数据库能力上限。而分布式数据库采用多种模式实现数据的分散存储,将压力分散到不同服务器上,并不断通过增加存储或计算节点来实现弹性升级,克服了集中式数据库的诸多缺点,业界已有分布式数据库在股份制银行、城商行、二三线城市运营商等实现了核心业务系统的改造落地,同时,去年12月,腾讯分布式数据库TDSQL落地东吴证券核心交易系统,也标志着分布式数据库在券商核心系统领域取得突破。
墨天轮国产数据流行度排行(截至2022/02),前十大热门数据库均为分布式架构,其应用场景涵盖各行业,显示出国产分布式数据库已经趋于成熟,正成为各行业数据库建设重要选择。
▲墨天轮前十大热门数据库均为分布式数据库
随着工业互联网、互联网创新型业务、车联网等应用的快速发展,非关系型数据库应用将加速落地。我国非关系型数据库快速发展,正逐步进入世界前列。我国非关系型数据库主要以基于开源数据库如Redis、InfluxDB、CouchDB等产品进行二次开发为主,根据DB-Engines 2022年2月排名,国内浙江智臾和阿里云TSDB,分别位列时序数据库第11、21位;图数据库方面,欧若数网Nebula Graph、百度智能云开源产品HugeGraph、华为云GraphBase分别位列15、26、32位,显示出国产NoSQL数据库正逐步趋近于世界前列。
▲NoSQL数据库在制造、政府、金融等领域逐步落地
▲国内主流数据库厂商
▲互联网厂商
▲部分初创厂商
智东西认为,此次俄乌冲突,美欧试图将 IT 基础设施“武器化”,快速打击俄罗斯的生产和生活秩序,这充分表明在大国竞争中将 IT 基础设施建立在所谓全球化的根基上是不可靠的,大国的 IT 架构必须坚持独立自主的发展道路。所以,不仅仅是芯片、数据库,我们要在科技领域的各个环节,将核心技术牢牢抓在自己手中。