你是一个程序员,如果最近面试的时候,面试官问你,怎么在AI时代下设计一个数据平台,你会怎么回答?
不要怀疑,他只是想在你答不出来的时候,将他在腾讯全球数字生态大会上,听到的 Data Platform 数据平台解决方案,再讲一遍给你听而已。
我来抢答一下。
构建数据湖
数据平台,最重要的是数据。AI时代下,视频,文本,音乐等一系列文件数据,都需要在一个统一的存储池上存储和处理,这个地方就是对象存储COS。
对象存储可以提供海量结构化、非结构化、半结构化数据的统一存储,构成了庞大的数据存储中心,这就是所谓的数据湖。
使用数据万象处理数据
有了数据湖之后,我们需要对数据进行批量处理与管理,这部分能力在Data Platform上叫数据万象。
它包含Data Engine和MetaInsight双引擎。
Data Engine提供图片极智压缩、图片数字水印,视频边转边播等工作流批量处理能力。
处理完成后,在AI大模型能力的加持下,MetaInsight提取文件特征,生成多维云端索引,实现文搜图,图搜图等一系列跨模态分析能力。
数据加速器 GooseFS
数据加速器 GooseFS 能够大幅提升数据访问性能,加速从存到用的最后一公里。
当业务需要从海量数据中通过计算任务提取有效信息,训练模型的时候,使用 GooseFS 可以更高效地访问到目标数据。GooseFS 可以通过将数据调度到本地计算节点,大大提升数据读写能力,大大缩短大数据任务和模型训练时间,效率拉满!
使用日志服务监控数据平台
怎么监控数据平台的运行过程呢?自然是通过日志啦,使用日志服务CLS可以集中采集、监控平台日志。
CLS还可以使用SQL对日志进行统计分析,比如COS文件访问分布、模型训练成功率、任务执行耗时变化等等。最妙的是CLS还可以通过混元大模型智能生成SQL语句,各种统计分析So Easy!
以上只是 Data Platform 数据平台解决方案的一小部分能力。