大数据时代,行业数据存储一直是企业数字化转型过程中首要考虑的问题。随着AI、IoT技术的快速发展以及云的大范围应用,企业对于基础设施能力的建设愈发重视。
数据库是互联网时代企业早期应用的核心,当数据洪流袭来,数据应用也渗透到技术、业务等各个层面时,企业在面对数据存储及分析时也面临着一些新的挑战。尤其是金融行业的数据存储问题,业务增长和拓展往往伴随着海量的结构化数据处理,再加上金融行业对数据存储在安全、效率、合规等多方面的要求,传统的数据库已经很难满足金融行业业务发展需求。
目前国内大数据领域发展迅速,国产数据库的崛起已成必然之势。在这样的背景下,南大通用自主研发的GBase8a脱颖而出,它是一款大规模分布式并行处理(MPP)数据库集群系统,面向海量数据查询分析应用,可以满足结构化数据的存储、分析、挖掘、备份等多种需求,可以有效支撑起金融行业业务拓展的需求。
为了强化GBase 8a能力,南大通用与英特尔合作,使用英特尔®至强®可扩展处理器作为产品的核心,并在英特尔推出全新数据中心平台后对产品进行更新,进一步强化GBase 8a的性能表现。
金融数据存储四道难关
大数据行业逐渐成熟,一方面是国家政府的大力支持,另一方面是技术创新潮流下,各类新应用引发的数据量爆发使得业务模式发生改变,促使大数据行业进入新的阶段。
金融行业由于自身特殊的行业属性,在发展过程中会面临结构化数据的飞速增长。目前,在日趋复杂的业务环境与数据增长背景下,数据库在金融行业中的应用主要面临以下四个难点:
一是数据多样化且迅速爆发,数据分析及吞吐量出现瓶颈。在金融行业的创新业务中,数据的来源多种多样,数据存储前需要进行整合后分析。而且数据集的规模会达到数TB甚至数十PB的级别,用户并发量远远超过传统业务承载能力,这对于数据库的吞吐能力带来了严峻挑战;
二是TCO快速攀升。快速膨胀的数据库系统带来了对于云与数据中心基础设施的旺盛需求,推动了总体拥有成本(TCO)的快速攀升。企业用户不断寻求通过硬件更新、软件优化等形式来提升单节点个服务器的性能表现,进而提高投资收益;
三是数据存储IO效率低,难以支撑企业内部协作展开。数字时代下企业各业务部门之间的协同更加重要,对于企业的关键业务来说,更高的处理效率及更低的延时是核心,这就对数据库IO操作的效率与服务质量提出新需求;
四是数据安全,这是金融行业中备受关注的问题。数据即价值,企业用户在选择数据库时不仅要考虑性能、时延等因素,还要对数据存储的安全性及容灾能力进行评价,特别是在业务进行数据分析时对数据权限的把控。
南大通用分析性数据管理系统 GBase 8a 系统架构
南大通用是国内主攻国产数据库研发和推广的数据库公司,针对大数据时代企业数据的有效管理,南大通用自主研发了GBase 8a、GBase 8s、GBase8c 等数据库产品。GBase 8a是一个大规模分布式并行处理(MPP)数据库集群系统,相比于传统数据库,GBase 8a在结构化数据的处理上具备突出优势,支持从数TB到数十PB的数据集。
从研发、应用到成熟,GBase 8a经历了很长时间的沉淀。2014年国内某银行总行的大数据平台项目上线,面对每天TB级的数据增量、复杂的库内作业、超长的日运行时间以及多样的数据来源,南大通用与之一起,将GBase数据库成长为足以支撑如此高强度行业应用的世界级数据库:部署近2000个节点,管理数据超25PB,无故障运行超过2000天(案例参考:http://www.gbase.cn/case_info/1188.html)。
目前,GBase8a已在中国人民银行、中国银行保险监督管理委员会、中国证券监督管理委员会、中国农业银行总行、中国银行、中国工商银行、招商银行等金融领域部署规模化应用,且已经向电信、政企等多领域延伸。特别在电信行业中已经在中移动总部及30个省市均有规模化部署。目前GBase8a数据库已经在全球34个国家部署超过30000个节点,管理超过200PB的数据(数据参考:http://www.gbase.cn/casee/377.html)。
南大通用携手英特尔:让数据迸发新价值
多年的熬炼,造就了南大通用GBase 8a出众的性能。在中国信通院第十二批大数据产品能力数据库基础能力评审会上,南大通用GBase 8a以4096个节点的集群规模满分通过中国信通院大数据产品大规模能力的基础能力评测,这是目前中国信通院大数据产品大规模能力的基础能力通过评测的规模最大的MPP数据库集群,这个成绩在国际市场同样具备很强的竞争力。这也让南大通用成为目前第一个在4096个节点规模下完成了性能专项测评的国产数据库厂商。
这主要得益于GBase 8a强大的扩展性。GBase 8a的每一个服务器使用的均是本地资源,基于节点对等扁平架构,让GBase 8a的横向扩展能力大幅增强。同时,集群计算性能和存储容量能够跟随集群扩展呈现线性增加。
GBase 8a同样具备新型的列存储引擎、高数据存储压缩比、免维护的粗粒度索引及多实例部署等多项大数据处理技术。在MPP高效分布式计算模式下,结合分布式智能优化器,GBase 8a能够完成对PB级结构化数据分析类应用的支撑。
不仅如此,GBase 8a还能通过集群内部副本同步技术、双重集群技术、跨域集群数据传输同步技术及虚拟集群技术,来保障大数据下集群的高可用性和多集群支持,实现多数据中心的部署。
在行业应用市场,GBase 8a根植大数据分析应用,主要服务于电信、金融、能源等大型企业。2019年,南大通用与英特尔合作,并入选英特尔精选解决方案,这一方案可以帮助数据密集型行业用户提升数据分析性能,并显著降低应用响应时间。
CPU是数据库系统整体性能发挥的核心,基于GBase 8a的英特尔精选解决方案可充分发挥英特尔至强可扩展处理器的性能优势,随着第三代英特尔®至强®可扩展处理器的推出,方案升级后GBase8a的性能表现再次增强,业务运行效率随之提高。
第三代英特尔®至强®可扩展处理在性能和功能方面均有大幅提升,具体来看主要有三点:
1、对于数据库应用而言,第三代英特尔®至强®可扩展处理器最新的微架构以及核心数量的增加,是推动数据库性能实现增长的关键,有助加速IO密集型负载的处理,在同等的服务器数量前提下,实现性能的显著增长;
2、第三代英特尔®至强®可扩展处理器提供了8个插槽配置的多插槽内核计数密度,每个处理器最多可达40个核心,与第二代英特尔至强可扩展处理器相比,性能、吞吐量和CPU频率显著提高,在主流数据中心工作负载上性能平均提升46%。
3、第三代英特尔®至强®可扩展处理器增加了数项全新的增强型平台功能,针对云、人工智能、高性能计算、网络、安全和物联网工作负载进行优化,在处理20种主流机器学习、深度学习工作负载时,第三代英特尔®至强®可扩展处理器能够带来高于其他CPU 1.5倍的性能提升。且其新增了PCIe-Gen4 支持,增加了内存带宽,每路处理器内存容量达6TB,还增加了AVX-512指令。
这些能力的加持下,GBase 8a拥有了无缝性能的基础,同样也有助于加快多云、智能边缘和后端等数据的变革性影响(复制链接,了解最新合作:https://bizwebcast.intel.cn/eventStart.aspx?eid=257)。
加速万物云化 强化IT基石
随着企业业务的不断发展,未来各行各业都将面临云化的趋势。从数据的类型来看,一般主要被分为三类,结构化数据、半结构化数据以及非结构化数据。
结构化数据是一种整齐的格式化数据,它通常能够用统一的结构来表达实现的数据,传统行业拥有大量结构化数据;与之相对,非结构化数据不易被组织或统一化,是一种字段可变的数据。数字时代下,网络大数据多以非结构化数据形式存在,在企业发展产生的数据中,有80%都属于非结构化数据,且每年增长迅速;半结构化数据是介于完全结构化数据与完全无结构化数据之间的数据,它具备一定的结构性,但变化较大,如企业中的各类日志信息,就属于半结构化数据。
数据类型的不同,自然需要选择不同类型的数据库来进行存储。虽然非结构化数据是目前数字时代的主要形式,但在各个行业长期业务开展过程中,结构化数据大量积累。且新的业务发展同样会产生数据存储环境的变化,因此数据库的变革接踵而来。
也是在这样的趋势下,英特尔推出第三代至强®可扩展处理器,全新的数据中心平台可以为本地和分布式多云环境中运行的现代工作负载进行优化,再加上与英特尔®傲腾™持久内存与存储产品组合、以太网适配器等方案搭配,能够为数据库带来更强的性能表现。
值得一提的是,英特尔®傲腾™持久内存具有两种运行模式——内存模式和App Direct模式,可以通过多种方式提高数据库性能。英特尔®傲腾™持久内存的内存模式可用于降低缓存层成本,而App Direct 模式则是提供高速大批量数据存储能力,通过优化数据存储,从而提高数据库中的读写速度。实际产品应用中,搭配傲腾固态盘P5800X/P5801X,能够提升单服务器的可扩展性,实现数据库加速、写入缓存、高性能分层等功能,让用户在部署数据集时更加便利。
未来企业发展存算分离,结构化、半结构化、非结构化等多种结构数据并存。南大通用GBase 8a借助英特尔在核心性能、硬件组合及软件优化方面的支持,将传统业务结构化数据存储革新,并不断提升数据库性能,为企业用户的数字化转型打造坚实基石。随着大数据行业的演进,全新的数据库解决方案将会应用到越来越多的行业,推动数字经济的建设。
点击下方链接,获取解决方案白皮书!
南大通用利用第三代英特尔® 至强® 可扩展处理器显著提升其 GBase 8a 性能 (intel.cn)