核心摘要:
中国数据库市场规模: 据艾瑞统计, 2020 年中国数据库市场总规模达 247.1 亿元,同比增长 16.2% 。 未来三年预计将保持高增长,多方面积极因素促成: 1 )政策扶持、国产化和数字化转型带动需求增长; 3 )各种类型厂商厚积薄发,产品和技术走向成熟; 4 )企业对基础软件的付费意愿逐年提升。
中国数据库市场格局: 1 ) 多类型数据库百花齐放,关系型占据绝对主流, 2020 年中国关系型数据库的市场份额达 90% 左右; 2 )借助政策东风,国产厂商市场版图快速扩张, 2020 年达梦等传统国产厂商的市场份额上升至 7.1% ,国外厂商下降至 52.6% ; 3 ) 2020 年中国公有云部署模式的数据库市场份额占比达 32.7% ,近年来增速有所放缓,预计 2025 年将达到 47.2% ,云厂商将成为中国数据库市场市占率最大的阵营; 4 )初创厂商不断涌现,预计未来五年有 10 倍以上的成长空间。
中国数据库市场挑战与趋势: 约 2010 年起, 中国数据库 市场进入了充分释放活力的十年,但在分布式改造、国产化、数据迁移、跨库管理、软硬结合等多方面仍面临挑战。 据艾瑞研究,“多场景、融合、云、湖仓一体、开源、人工智能”将成为中国数据库市场未来发展的必然趋势。
01 供给端
全球数据库发展历程
数据库与互联网发展相互促进,技术和产品趋于成熟和完善
受益于市场需求和技术沉淀,进入百花齐放的快速发展期
从20世纪80年代起,我国数据库市场开始逐步发展起来。经历了初始的技术萌芽期和国外厂商垄断期,21世纪初,基于863计划、核高基计划等国家政策支持,一批拥有高校背景的国产厂商成立,打破了Oracle和IBM一统天下的格局。2010s,随着市场需求的增长、技术的沉淀,一批云厂商和新兴独立厂商开始提供数据库产品。近年来, 借助国产化热潮,许多软件厂商、集成商、运营商等也开始入局,发展自己的数据库能力。
中国数据库产业图谱
中国数据库市场规模
政策和数字化释放需求,2020年市场规模达247.1亿
据艾瑞统计, 2020年中国数据库市场总规模达247.1亿,较2019年增长16.2%,CAGR(2020-2025e)达15.6%。 2020-2022中国数据库市场将呈高速增长,由多方面因素促成:1)政策利好,国家大力鼓励国产数据库厂商的发展;2)需求拉动,国产化和数字化建设带动需求的爆发增长;3)供给端多元厂商发力,传统、初创和跨界厂商厚积薄发,产品和技术经历了工程实践的打磨走向成熟;4)国内企业对基础软件的付费意愿和IT支出逐年提升,有利于市场的长期发展。
中国数据库市场发展特点
多类型数据库百花齐放,关系型占据绝对主流
随着互联网的发展,多种类型数据爆发式地增长,各种创新业务场景层出不穷,进而促进了供给端厂商技术和产品架构的创新。从2010s左右,多种类型和技术路线的数据库厂商纷纷成立,中国数据库市场进入了百花齐放的阶段。但从商业价值来看,中国数据库市场的营收仍主要来自关系型数据库,NoSQL数据库更多地是开源模式,产生二开和服务的费用。
借助政策东风,国产厂商厚积薄发,市场版图快速扩张
借助政策红利,国产厂商经过多年的技术研发和经验积累,市场份额在逐年提升。在国产阵营中,一批以“达梦、人大金仓、南大通用、神舟通用”为代表的,2000年左右成立的传统国产数据库厂商近年来开始发力,他们从购买源码、借助开源走向自主研发,实力不断增强,在党政军市场有着较好的表现,同时也开始向能源电力、运营商、交通等其他行业快速拓展。此外,初创厂商、云厂商、ICT厂商等近年来也开始发力数据库市场,国产阵营日益强大。相比之下,国外数据库厂商如Oracle、Microsoft、IBM等,虽然在OLTP的核心场景还拥有较高的市占率,但整体市场份额在被逐渐侵蚀。
公有云数据库增速放缓,未来仍有一定渗透空间
中国公有云部署模式的数据库在过去三年快速增长,于2020年达到了32.7%的市场份额,未来虽然增速会有所放缓,但仍有一定的渗透空间。从应用逻辑来看,数据库服务于数据,数据应用于业务最终产生价值;反之,业务端的创新和数据的变化也会反馈与数据库市场。从最终业务端来看,现阶段云数据库更多的还是应用于互联网行业,以及传统行业的互联网场景,未来随着产业端更多的业务创新,有望进一步拉动云数据库的需求。
凭借HTAP、NoSQL等新技术,初创厂商不断涌现
一批2015年前后成立的初创型厂商借助NewSQL、SQL on Hadoop、NoSQL等新技术架构,以开源或垂直领域商业化的思路,逐步增强自己的市场影响力,在互联网、金融、物联网等行业有着较好的表现。从现阶段来看,其营收的市占份额较小,但增速较快,是中国数据库市场增速最快的一个赛道,预计到2025年可以实现高于十倍的扩张。随着市场的大浪淘沙,未来的初创数据库厂商赛道会趋于收敛,市场份额向一小批具有核心技术优势、抓住高价值应用场景的优秀厂商集中。
02 需求端
采购流程
不同企业组织架构和选型要求不同,采购流程也有一定区别
选型指标
综合考虑外围因素、产品技术相关因素和服务价格因素
参考企的业采购流程,一般数据库选型从前期到后期,会综合考虑外围因素(自身技术路线、资质、品牌声誉与行业案例、生态构建等),产品技术相关因素(一致性、兼容性、扩展性、性能、功能丰富性、安全性等),以及后期的价格服务因素(解决方案、性价比、服务响应速度、培训体系等)。
示例场景——金融
对“高可用/强一致/低时延”要求高,分布式改造是下一步重点
对于以银行为例的金融企业而言,其业务数据的价值较高,因而对数据库“高可用、强一致、低时延”的要求较为极致。在TP场景下,银行下一步选型的重点为分布式改造。初步来看,解决思路主要是“中间件+分库分表”or“原生分布式架构”。中间件路线方案成熟且性能表现较好,是现阶段大多数客户的选择;但原生分布式架构在扩展性方面存在天然的优势,在未来具有更广阔的发展空间。
示例场景——互联网教育
业务扩张速度快,看重可扩展性、成本控制和成熟度
受利互联网和疫情,教育行业近年来呈“营收高增长,业务快迭代”发展特点。因此,企业在进行选型时较看重数据库的可扩展性,希望产品可以及时响应公司版图的扩张和业务的变更。同时,教育行业属于非强技术导向型,企业对数据库强一致、高性能和高可靠的要求并不极致,更多会考虑产品的成本控制和成熟度。企业在选型时表现较保守,虽然看好一些新产品(e.g. HTAP数据库、云原生数据库),但更希望数据库产品工程实践丰富,可以拿来即用,且专业人才招聘容易。因此MySQL数据库成为许多(互联网)教育企业的最佳选择,同时考虑成本和便捷性,云托管形式在业界也比较流行。
03 挑战与趋势
挑战一
分布式实践仍存在许多问题
横向扩展 (scale out) 的设计思想并非创新,但在历史上一直未被广泛应用。一方面是由于分布式环境使事务ACID特性难以实现,另一方面是由于单机性能升级即可满足企业的数据需求。但随着摩尔定律在某种程度上的失效和互联网的发展,硬件性能升级无法匹配海量数据的增长,分布式在近年来广受关注,许多厂商都推出了相应的分布式数据库产品。然而,在分布式的前提下,还有许多待探索的问题,例如分布式事务的解决、架构的创新、数据分片的智能化、企业级能力的提升等。
挑战二
信创为国产厂商提供成长沃土,未来发展仍待市场磨炼
信创即信息技术应用创新,是在复杂国际政治背景下,国家政策引导的新一轮信息产业创新。“信创”无论是对产业端还是需求端企业都是一个重要的契机。国产数据库厂商借助政策东风,有利于其拓展市场,将产品放到实际场景中打磨,不断更新迭代,实现自己技术实力正真的弯道超车;传统行业企业、政府等也可以借此契机,实现数字化转型和业务的创新发展。但信创并非一日之功,从产业发展规律来看,新一轮的技术变革往往需要长达6年左右的实践和积累,需要上下游厂商和企业共同的长期努力。
挑战三
数据迁移、多库管理提出新的挑战
面对业务形态多样、商业模式多变、需求变化频繁的当代市场,数据库和应用系统存在的形式也愈发的丰富。一个企业往往拥有多个系统,从本地到云端,从关系型到非关系型,从OLTP到OLAP,从国外品牌到国产品牌,数据库之间的跨库查询、数据导出迁移、结构变更等操作已成为常态。数据迁移频繁、多库并存的现状,使得企业后期的使用成本(运维成本、人力成本、多技术栈学习成本、迁移成本、二开成本等)大幅提高,也为数据库厂商提出了“统一管理”的新挑战。
挑战四
CPU、内存等硬件变化为数据库设计提供更多的想象空间
数据库系统遵循“木桶理论”,硬件和软件作为系统的核心组件,互相制约,互相促进。而新型硬件的发展为数据库软件的发展带来了新的挑战。例如多核CPU技术走向成熟,但实际应用中并发控制出现冲突,使得核数增加带来的性能增益出现限制,如何进行多核CPU调度优化为厂商提出了新的难题。同时,大容量内存和高速硬盘走向普及,NVM非易失内存也逐渐成熟,内存的潜力释放,如何搭配新存储介质设计新的数据库架构也有待探索。因此,一些数据库领先企业如Oracle、阿里等都开始探索数据库软硬一体机的设计与实践。
趋势一:多场景|融合
结合细分场景的多样发展是必然选择,用户简单化需求驱动的一体化融合也不容忽视
从产品视角来看, 不同场景具有不同的特性,对数据库读写性能、吞吐量、一致性等方面的要求各有不同。为支持不同场景下的不同要求,数据库多样化是必然的选择。例如,物联网场景下写入的数据量特别大,对实时性的要求特别高,但数据天然是时间有序的且具有静态特征,因此时序数据库会较传统的事务型数据库更有优势。
从用户视角来看, 除部分头部互联网公司外,其他大中小型企业的IT人员比例都并不高,对口数据库团队的人数会更少。对于他们而言,各种日新月异的技术栈、多种类型的数据库产生了极大的学习成本和维护成本,因此希望能够有一体化的产品/平台直接使用或者统一管理。对于该种类型的企业而言,会更倾向采购能满足其70%全部需求的一体化产品,而非能100%满足其部分需求的多个产品。当今市场上的HTAP/NewSQL数据库、多模数据库、统一管理平台等即满足了企业简单化一体化的需求,因此在多场景大背景下的“融合”也是不容忽视的趋势。
趋势二:DBaaS
解决弹性伸缩问题,为供应商和企业提供更多的想象空间
随着企业业务规模的扩张,数字化转型的推进,其对数据库系统也提出了新的要求:传统建设模式项目周期长,不能匹配业务上新的速度;企业部署多套数据库系统,系统间割裂,缺少统一的管理平台;资源采购和体系规划按现有规模建设,难以随业务的变化而弹性伸缩等。DBaaS(Database as a Service) 即将IT基础资源以服务化的方式提供给数据库,以及多租户和动态调整来解决成本和响应问题。部分对数据自主性和安全性要求较高的大型企业,可以选择以私有云或者专有云的方式进行数据库的云化改造。
趋势三:湖仓一体
架构创新,同时实现海量大数据的联机交易和联机分析
1980s以来,数据仓库技术不断发展,尤其MPP架构使得DBMS能够处理大量数据,满足企业通过数据分析来支持商业决策的需求。但随着互联网的发展,许多企业需要同时处理非结构化数据,半结构化数据以及海量结构化数据。数据湖随之诞生,它可以直接存储各种格式的原始数据,根据用户需求进行计算,具有灵活弹性的优点。但是,数据湖虽然适用于存储多元化数据,却缺少一些企业级功能,在实际执行时也存在许多挑战:数据缺少加工,难以实现实时分析,数据查询性能差;不支持ACID事务等。
面对企业海量大数据场景下的联机交易、非结构化数据治理的需求,以及数据仓库/数据湖架构的局限,以Snowflake、Databricks、阿里云、巨杉数据库为代表的新一代“湖仓一体”数据库厂商快速崛起。湖仓一体架构下打通了数仓和数据湖,并融合了两种架构的优势,底层多套存储系统并存且互相数据共享,形成了资源池,上层各引擎可以通过一体的封装接口访问,实现了联机交易和联机分析的同时支持。
趋势四:开源
开源模式成为产业互联网时代数据库厂商的破局之刃
从产业发展角度来,开源模式一方面提高了数据库产品开发的“效率”,它将源代码开放,避免了研发人员对基础程序的重复开发;另一方面它也有助于产品的技术“创新”,开源社区最大程度上汇聚了全球的资源力量,为开发者提供了交流切磋的空间,从而加速创新灵感的诞生。对于厂商而言,尽管从表面上看,企业部署开源并不能获得直接的利益,但在这个过程中,它们却可以布局产品的生态建设(包括人才培养、市场教育、实践反馈、企业文化、产品影响力、配套周边产品等),从而为自己获得有利的战略地位。在当今移动互联网向产业互联网发展的转折点,开源模式未尝不是各云厂商、传统厂商、新兴厂商扩展市场的破局之刃。
趋势五:智能化
人工智能延伸DBA的能力半径,优化数据库性能
随着移动互联网到产业互联网的发展,数据每日呈指数级的增长,且呈现多模态特性。面对复杂海量的数据,越来越多种类的数据库出现,需要调试的范围越来越广。但大多优化任务仍落在DBA身上,需要其进行手动调优,致使人工能力逐渐跟不上数据库的发展。而人工智能可以弥补人能力的不足,解决许多存在多年的数据库问题,例如资源的调度、索引的设计和优化、查询的优化、负载均衡设计、缓存失效等。AI 通过优化算法,对任务进行有效地预测、分析和自动化,从而减少了人工成本并大大提高数据库的性能。尤其是未来随着云上数据库更大范围内的普及,智能资源调度将成为各供应商需要面对的下一个课题。