WOT 全球技术创新大会2024·北京站于 6 月 22 日圆满落幕。本届大会以“智启新纪,慧创万物”为主题,邀请到 60+ 位不同行业的专家,聚焦 AIGC、领导力、研发效能、架构演进、大数据等热门技术话题进行分享。
近年来,数据和人工智能已成为推动各行业创新和增长的关键力量。但如何将数据与人工智能融合,从而创造更大的价值,是企业都在寻找的答案。在 WOT 全球技术创新大会《AI 与数据的智能融合》专场中,来自腾讯云的三位专家分享了腾讯云在数据管理与人工智能领域的技术成果和成功案例,并探讨二者如何智能融合为企业提供更高效、更智能的数据服务。
数据库 AI+Serverless 助力企业降本增效
腾讯云高级技术产品经理 陈昊
随着数据库技术的不断迭代,我们已经迈入数据库3.0时代——Serverless 数据库服务兴起。Serverless数据库具有两大特点:随取随用和按需付费,实现了资源的精准分配和合理计费。TDSQL-C Serverless数据库则充分发挥 Serverless 数据库架构的特点,帮助用户实现极致的弹性以及降本增效。
TDSQL-C Serverless 数据库架构分为接入层、管控层、计算层和存储层。接入层增加了独有的恢复感知器。恢复感知器是轻量级类 Proxy,用做 Serverless 数据库实例唤醒时的链接保持,确保在数据库没有负载时暂停,在需要访问数据库时快速拉起实例的同时保证链接不断,并且根据权重设计访问路径。这种极致的弹性伸缩,TDSQL-C Serverless 架构是如何实现的呢?
陈昊介绍,TDSQL-C Serverless 数据库架构采用预制资源模式,提前预留资源,从而避免事后弹性方式的弹性间隔,实现瞬时满载,并根据 CPU 监控扩展 Buffer pool,实现动态调整 BP。TDSQL-C Serverless 架构支持 RW 节点和 RO 节点混部模式,为用户预制普通规格资源的同时,搭载能够实现横向弹性和纵向弹性的Serverless。
如果数据库在进行弹性调整的过程中,对业务产生抖动怎么办?针对这一点,陈昊介绍了 Buffer pool 的运行机制。Buffer pool 由多个instance组成,每个instance都包含 chunk,其中block是内存的最小管理单元,每个 block 大小为16KB。这些 block 用于存储热数据。扩缩容操作涉及调整 chunk 区的大小,在操作过程中,Buffer pool 内部的两个关键链表——Lru list(最近最少使用列表)和Free list(空闲列表)发挥了重要的作用。扩容时,首先从 Free list 中添加新的 block,然后将这些新添加的 block 移动到 Lru list 中,完成扩容过程。
比起扩容,缩容更容易出现抖动。为了避免这一情况,TDSQL-C通过三种方式解决产生毛刺的问题:
第一,针对持久化 page 导致的 IO 瓶颈,TDSQL-C 采用 redo log 在存储层异步生成 page,计算节点无需刷脏直接丢弃淘汰 page。
第二,针对遍历过程中持有 mutex 锁时间过长的问题,TDSQL-C 能够按地址遍历需要被回收的 chunk 中的 block,并且加锁区间由整个 Lru 链表变成单个 block。
第三,针对获取 BP 全局锁执行时间过长的问题, TDSQL-C 采用延迟释放chunk 和提前预分配chunk的方式,同时优化 resize hash 算法,改为异步模式。
TDSQL-C Serverless架构还能帮助用户极大程度减少存储成本。TDSQL-C Serverless 架构采用了全球首创的可释放存储技术。当数据库中的实例暂停后,数据会自动归档到 COS 中,实现灵活存储。恢复实例时,则按照表的访问顺序进行数据恢复,优先恢复最先被访问的表,同时保证恢复过程不影响数据库的整体访问,极大程度降低了存储成本。
随着 AI 技术的爆发,AI 与数据库开始融合,并且走向 AI4DB。既然我们已经来到 AI4DB 时代,AI+Serverless该如何实现?如何帮助应用快速落地?陈昊表示,未来腾讯云 TDSQL 数据库将结合混元大模型的能力,在智能运维、极致成本和智能预测等方向发力,借助AI的能力帮助用户降本增效。
大模型时代下的存储系统
腾讯云高级产品经理 林楠
在当前时代的发展中,企业正逐步利用大规模的对象存储来构建企业级数据湖和智能存储服务,存储系统正朝着更加弹性、高效和智能的方向发展,以满足企业在数据处理和利用方面日益增长的需求。随着大模型的出现,存储系统还需要满足大模型训练和推理过程中对数据规模、性能和稳定性的多样化需求,以及在处理海量数据的同时保证对高价值数据的高性能访问,实现大规模存储与高性能访问的平衡,确保大模型的高效训练和推理能力。
腾讯云是如何应对多样化的存储需求的呢?首先,腾讯云通过全球基础设施,在 21个地区部署 3200+ 加速节点,为企业提供卓越、稳定的公网接入和传输能力,满足企业安全、高效、可靠的数据迁移需求。在过往的数据迁移案例中,我们曾经支持过数十 PB 甚至上百 PB 数据的稳定迁移。
其次,腾讯云全自研对象存储引擎 YottaStore 能够为大模型训练和推理提供非常坚实的底座支持。在数据接入层面,腾讯云自研了无状态的弹性接入集群,支持丰富的公网接入和弹性伸缩能力;在存储引擎层面,腾讯云提供了原生多 AZ 的特性,提供了高可靠的存储能力;通过元数据分级存储等方式,单集群可以轻松扩展到百 EB 级别。通过深耕软硬件技术优化,腾讯云对象存储一方面可以满足业务不同规模、不同类型的数据存储需求;另一方面,也为业务提供了连续可用的服务,保证数据随时可访问,数据可以永久存储、不坏不丢。
存储系统存在着海量数据,企业如何找到真正需要用的数据?这就需要腾讯云自研的 GooseFS 三级加速服务来提升数据使用效率。GooseFS可以将数据智能存储到内存、计算集群的本地盘、或可用区的全闪存储集群等不同级别的缓存中,提供亚毫秒级的数据访问时延、百万级的IOPS和Tbps级别的吞吐能力,有效提升数据清洗效率。
AI 场景中存在海量文件的存储和访问需求,因此GooseFS 面临着海量元数据存储以及数据亲和性调度的挑战。为了应对海量元数据存储的压力,GooseFS 通过在高性能 KVDB 上实现了元数据分库分表、跨节点硬链等技术手段,有效提升元数据规模和平行扩展能力,当遇到主节点元数据访问故障时,整个元数据的访问可以快速迁移到备节点中。通过这些方式,GooseFS可以为大模型训练场景提供百亿级的热点元数据存储能力,提供百万级 IOPS,并且可以在高压情况下做到秒级故障恢复的能力。
介绍完腾讯云对象存储如何助力大模型框架提效降本,接下来林楠介绍了腾讯云数据万象如何利用AI赋能存储系统。
第一个能力是一体化AI审核+存储。在大模型的生产框架中,无论是训练还是推理都会涉及内容安全的问题,因此腾讯云数据万象在存储端提前预置审核能力,通过对用户输入和AIGC模型输出这两个阶段的内容审核,可以充分保障内容安全的合规要求。数据万象的审核能力可以根据数据存储位置智能地调度处理集群,通过近存储侧的处理能力,从而提供更优的数据传输时延和更低的成本。
第二个能力是知识产权保护。现阶段 AIGC 产权并没有明确的标识物,但当 AIGC 的产物被大规模应用时,知识产权保护的需求也会随之而生,这个时候就需要明确声明产出物的模型主权。腾讯云数据万象的数字水印技术提供一站式明暗水印添加能力,可以在图片、视频,文本中嵌入机密信息,保证数字产品的版权保护和侵权溯源。
第三个能力是多模态智能检索。与传统的基于标签的标量检索不同,腾讯云数据万象MetaInsight通过预先计算数据的向量空间并存储于向量数据库中,再利用向量检索技术在向量空间内寻找相似的图片、文本或视频内容,从而实现更精准的全媒体类型跨模态检索能力。MetaInsight支持以文搜图、以图搜图等多种高性能的数据检索手段,覆盖了上千个细分场景,可以帮助客户快速建设检索应用。
高性能异构云原生 PaaS 平台建设实践
腾讯云中间件产品资深架构师 侯诗军
根据 IDC 和 Gartner 等权威机构的调研数据,越来越多的企业正逐步将有状态中间件、大数据和数据库进行云化,而算力融合是实现这些系统云化的关键。腾讯云凭借多年的内部实践和企业级市场经验,提出多级算力融合策略,作为云原生与传统架构结合的优选方案,有效规避算力孤岛,助力企业更有效地进行云原生数据库、大数据和中间件等有状态业务的实施落地。
众所周知,网络、计算、存储是云计算的三大核心要素。接下来,侯诗军从网络、计算、存储三个方面介绍腾讯高性能异构云原生平台的建设情况。
首先,高性能的网络是构筑大规模集群的基石。腾讯云基于 eBPF 和自研的智能网卡的自研高性能网络,同时支持 Overlay 和 Underlay 等网络架构,实现物理机、虚拟机和容器网络的互联互通,让数据业务在不同计算形态间无缝迁移。例如腾讯内部的节点和核心交换网基于BGP 协议进行路由管理,通过ECMP实现路由级负载均衡。在节点层面,通过自研的 L4/L7 负载均衡器、基于 eBPF 的高性能网络插件,以及对操作系统内核的深度优化,大幅的提升网络转发处理效率与性能。例如通过优化之后的Service新增规生效时间稳定在0.5毫秒内,较开源的Iptables和IPVS的秒级生效有质的提升,更适合大规模集群业务迭代与快速弹性。
此外,腾讯云自研的星星海服务器和智能网卡系统。通过将网络和存储虚拟化卸载到智能网卡,进一步减轻主机 CPU 的计算负担。在腾讯云的裸金属新一代统一架构中,通用计算和裸金属都已全面集成自研智能网卡系统,网络和计算性能显著提升。
在计算层面,腾讯云自研的 VStation 计算调度器,可同时支持黑石物理计算、通用计算以及异构计算,包括GPU/FPGA等。腾讯云基于KMD/UMD拦截控制自研的 qGPU 方案,也有效的避免了“缺卡”、干扰问题、峰谷利用率不足等问题。qGPU可提供两个层面的调度。第一种方式是集群层面的调度,通过平均分配策略能够保证负载均衡,而尽量填满策略能够保证利用率。第二种方式是在单卡中调度多个Pod,参照vGPU调度基础上提供争抢模式、固定配额和保证配额增加弹性三种方式。
腾讯云还优化了有状态工作负载控制器,在完全兼容原生 StatefulSet 的基础上增强了 StatefulSetPlus Workload,并支持分批灰度、一键回滚、HPA、原地重启与升级等,很好的应对有状态数据类业务云化过程中的刚需问题。同时,腾讯云自研的 SSM 控制器可以屏蔽不同类型数据库中间件,通过 SSM Controller 统一创建,实现云原生的声明式和面向终态运维。除了 StatefulSet,腾讯云还自研了基于云原生的虚拟化 KubeVM。通过 Kubernetes 平台可同时调度容器和虚拟机,在网络、算力、存储多个层面上实现统一管控。
在存储方面,腾讯云自研的 TCS Local Persistent Volume能够满足工作负载在节点本地存储的使用需求,让有状态业务能充分地利用好本地存储的资源。TCS Local Persistent Volume支持全生命周期单独管理,确保工作负载被删除后,数据不会丢失;支持调度强绑定,可以防止有状态业务调度到没有数据的工作节点。
在分布式存储也实施了多项优化措施,以提升其性能和可靠性。首先,通过三副本结对、多集群故障域、IO 与控制分离以及快照异地容灾等策略确保了存储的高可用性;其次,引入了渐进式条带化处理方法,通过文件大小的 Hash 调度至不同存储区域,优化了存储空间的利用率和读写性能;最后,在元数据管理方面,通过将元数据服务(MDS)信息分散至多个节点,不仅提高了元数据的处理效率,还增强了系统的健壮性,确保了元数据性能的线性增长。
有了好的能力建设,接下来还需要沉淀复用,腾讯云如何赋能更多业务和对外输出?
侯诗军表示,在全面云化之后,公有云全栈能力下沉到私有云是私有云发展的新趋势,因此腾讯云打造了TCS云原生企业级PaaS平台和TCE全栈企业级云平台。TCS云原生企业级PaaS平台能够向下兼容第三方的异构 IaaS,向上支撑 CVM虚拟机、K8S 容器、qGPU、边缘计算等多级算力,实现统一异构的资源调度。在对外输出方面,微服务、中间件、数据库、存储等能力都可以通过腾讯云TCS云原生企业级PaaS平台快速交付至企业。例如在数据库方面,腾讯云提供 TDSQL、CRedis、PostgreSQL 等私有化的数据库能力;在消息中间件方面,腾讯云提供 Puslar、Ckafka、RocketMQ 等主流的消息中间件;在微服务方面,腾讯云提供 PolarisMesh 治理中心、TSF 微服务框架、RIOGW 智能API网关等微服务套件。目前腾讯云已在金融、政企、交通、制造、互联网等多个行业落地。
最后,侯诗军用一首诗总结了今天分享的内容:架构云化寻常路,循序渐进来过渡。异构 PaaS 启新纪,算力融合创万物!
以上就是《AI 与数据的智能融合》腾讯云专场的精彩分享。腾讯云在AI与数据领域的最新技术和成果不仅为企业提供了降本增效的新途径,也为企业走向智能化提供了强有力的支持。随着技术的不断进步和创新,腾讯云将继续在智能化转型的道路上引领企业走向更广阔的未来。