数字经济时代,数据已经成为企业的核心资产,推动着企业的业务创新与高速发展。随着企业数字化转型的深入,企业获取数据的方式变得更加简单,数据量呈现出爆炸式增长的态势。与此同时,企业对于数据处理的需求也发生了变化,由原来的实时处理扩展成对数据资产的深度分析,HTAP混合型关系数据库成为企业最佳的选择。
基于市场的实际需求,结合用户和开发者的真实需要,openGauss进行了全面的技术架构创新和产品功能演进,并于2022年9月30日正式发布了openGauss 3.1版本。openGauss 3.1版本采用了四大架构创新技术,并持续演进了“四高”能力,能够支持数据实时交易和分析混合处理,以一栈式 HTAP 解决方案,赋能开发者,助推企业加速数字化转型进程。
从OLTP到HTAP,用户场景驱动数据库变革
提到数据库,就不得不提OLTP和OLAP。
作为承载企业诸如CRM、订单系统、销售系统等等在线事务处理的核心数据库系统,OLTP对高并发、低延时、数据一致性有极高的要求。OLAP主要用于大量数据的分析、处理与汇总,因此对磁盘的容量有着很高的要求,在性能方面可以容忍少量滞后。
在数字化转型的初级阶段,企业的核心应用场景比较单一,且由于数据量不大,OLTP数据库完全能够满足企业的需要。随着数字化转型的不断深入,数据量呈现出爆炸式增长的态势,加之AI、大数据等新兴技术的不断发展,企业对于数据分析、处理的需求越来越多,OLAP则承担了大数据分析、处理的需求。
虽然我们能够找到一个100%的OLAP系统,仅处理OLAP的需求,但是OLTP系统绝对不是100%的OLTP。因为,在数据驱动的今天,任何业务系统都会有一个简单的子系统来处理即时报表,况且有些业务还自带大量的统计查询。
为此,站在业务发展的角度,用户希望用最简单的方法解决接踵而至的即时分析需求,HTAP应运而生。为了满足openGauss社区用户、开发者的真实需要,在openGauss 3.0的基础之上正式发布了openGauss 3.1版本,除了持续演进的“四高”能力之外,还采用了四大架构创新技术,不但能够同时支持数据实时交易和分析混合处理,并且大幅提升了可扩展性,更好的满足了不断变化的用户场景需求。
四大架构创新技术,赋能企业核心场景应用
随着企业核心应用场景的不断变化,以及openGauss社区的蓬勃发展,行业的客户和社区开发者对openGauss提出了大容量、易扩展、易观测、易迁移、高安全等更多场景化要求。基于不同的场景化挑战,openGauss3.1版本打造了资源池化架构、可观测架构、插件化架构、数据安全架构四大架构创新技术,并在高性能、高可用、高安全、高智能领域持续演进。
1)资源池化架构: openGauss 3.1通过将计算池化、内存池化、存储池化,形成了三层资源池化模型,以应对大容量和易扩展带来的挑战。在存储池化上,openGauss 3.1采用了多节点共用一份数据,去除了日志复制开销,存储成本下降50%以上;在内存池化上,openGauss 3.1通过打通不同节点之间的内存访问通道,并叠加数据库本身的事务同步能力,形成了多节点下的多版本一致性读(MVCC)能力,应用不管从哪个节点接入,都能获取到最新的一致性数据。数据一致性敏感型应用负载能够容易地从单个节点透明扩展到多个节点。在计算池化上,采用ShardingSphere的分布式OLTP组件和基于openLooKeng的分布式OLAP组件(openLooKeng是华为开源的高性能数据融合分析引擎)。OLTP组件和OLAP组件所形成的HTAP架构,实现了用户表元数据的统一管理,为应用提供高并发低时延的OLTP和OLAP负载处理能力,很好地满足了企业海量数据业务处理的诉求。
2)可观测架构:openGauss 3.1基于可观测工程中的三大支柱打造了可观测整体框架,实现对openGauss数据库全栈的可观测、可跟踪、可诊断。在Logging方面,实现了对操作系统和数据库性能指标的采集和查询能力,并使用filebeat、Elasticsearch去收集系统日志和数据库日志。在Metrics方面,利用Promehtheus组件实现了对监控数据库和操作系统的多维指标全栈监控,以及基于指标数据的故障预测预防。在Tracing方面,利用eBPF技术以及实时SQL跟踪,实现对性能问题和故障的分析和诊断。
3)插件化架构:openGauss 3.1全面升级了对MySQL数据库的内核兼容性和迁移能力,让企业从MySQL数据库迁移到openGauss更加方便、快捷。在MySQL兼容性方面,通过对SQL引擎增加数据库扩展点,组织openGauss社区和DBV合作伙伴共同开发MySQL语法特性,目前已兼容 450个以上的MySQL语法特性,并以插件形式,动态加载,支持热插拔,实现了MySQL的无感切换。在MySQL迁移方面,全量迁移实现单节点一个小时在线迁移1TB数据,大幅提升迁移效率。在增量迁移上,实现了每秒钟30000TPS的多线程日志回放。与此同时,在数据校验方面,利用默克尔树校验算法实现迁移过程数据不一致的实时发现。在并线运行方面,实现了迁移后新旧系统并行工作,支持日志反向同步,极端故障场景下实现了快速逃生的能力。
4)数据安全架构:openGauss 3.1采用的数据安全架构不但支持基于同态加密的全密态数据库,还支持TEE软硬协同安全加密,全面支持国密算法,全面符合数字安全法规要求,进一步提高了数据的安全性。
除了四大架构创新技术之外,openGauss 3.1在“高性能、高可靠、高安全、高智能”四个方面持续创新。例如在高智能方面,openGauss 3.1采用贝叶斯网络算法准确评估复杂场景下的关联列基数,大幅提升了多列基数估计准确度。实验表明,在1000万的数据中建立4个关联列和4个关联索引,如果采用独立假性算法基数预估将产生76倍误差,采用多列高频统计算法将产生6倍的误差,而采用贝叶斯网络算法误差仅有1.1倍。
在实现上,优化器深度融合了DB4AI的能力,引入了统计信息分析器,包含模型创建、模型训练、模型推理、模型应用等核心AI组件,复杂关联列查询SQL端到端性能比友商所采取算法提升超过30%,成为采用AI技术解决经典数据库难题的创新之举。
在高可用方面,openGauss 3.1基于发布订阅模式的逻辑复制,实现数据双向同步和异地多活。由于openGauss 3.1发布端数据备份中包含了逻辑复制槽,因此实现了备份恢复后发布订阅不中断;此外,openGauss 3.1支持发布订阅同步基础数据,增量同步无缝衔接;支持以二进制格式发送数据,降低网络传输开销;支持发布端主备切换时订阅端自动连接;支持多节点相互订阅,解决循环订阅问题。与此同时,逻辑复制功能由openGauss 3.1内核集成,无需额外安装第三方工具且。
正是有了四大架构创新技术的加持,以及不断进化的“四高”能力,使得openGauss 3.1的核心优势愈发凸显,为社区用户、开发者提供了全新的选择,成为企业核心应用场景的首选,为从OLTP到HTAP转换,满足市场需求,提供了更好的选择。
驱动产品创新与市场需求螺旋式成长,携手夯实企业数字化转型基石
打造根技术,建设根社区,发展新生态,openGauss社区的每一次技术突破,每一个行业创新实践,都离不开数据库伙伴、客户和开发者的努力。
openGauss社区自上线以来,始终围绕市场需求进行技术创新,并将用户和开发者的诉求放在首位。通过开放开源的平台,openGauss社区将产业生态链的上下游合作伙伴、开发者汇集到一起,驱动产品创新和市场需求螺旋式成长。
经过2年多的发展,openGauss开源社区已经在技术、生态、商业和社区治理等方面稳健推进,快速成长。截至目前,已有185家企业和机构加入社区,4000多名开发者参与社区贡献,23000套商业落地方案,适配了500多个行业应用,已经在金融、政府、电信、能源、制造、交通等行业核心业务中规模商用。此外,openGauss全球下载量达到100万套,触达了90个国家、800多个城市。
openGauss 3.1版本推出之后,将成为openGauss社区的主力版本。社区中的用户、开发者,也将会基于openGauss 3.1打造出更多行业的应用,解决更多企业面临的挑战。而华为将与来自不同行业的合作伙伴,基于openGauss 3.1版本开发更多的商业落地案例,为千行百业提供更好的数据库解决方案。
未来,openGauss开源社区将持续围绕用户、开发者的实际需求,紧贴市场需求,紧密携手生态伙伴,不断加速创新步伐,全力夯实企业数字化转型基石,将中国数据库产业发展推入全新纪元。