当 AI 学会 25 种语言:达摩院 Babel 如何让全球 90% 人口共享智能红利? 原创 精华

发布于 2025-3-18 09:42
浏览
0收藏

阿里巴巴达摩院推出的Babel多语言大语言模型(LLM)是一项突破性技术,旨在通过支持25种最常用语言(覆盖全球90%以上人口)来弥合语言鸿沟。其核心技术特点及创新如下:

1. 模型架构与扩展技术

Babel采用结构化层扩展方法(Structured Layer Extension),通过增加参数规模提升模型能力,而非依赖传统持续预训练(continuous pretraining)。例如:

  • Babel-9B:专注于推理效率和微调优化,适合研究与本地化部署;
  • Babel-83B:参数规模对标商业模型(如GPT-4o),在多语言NLP任务中刷新性能记录,平均得分达73.2,显著超越Qwen2.5-72B(69.8)和Llama3.1-70B(66.9)。

这一设计理念与达摩院早期多语言模型(如PolyLM、SeaLLMs)一脉相承。例如,SeaLLMs通过优化非拉丁语言的长文本处理能力(可达ChatGPT的9倍效率),而PolyLM则通过课程学习(curriculum learning)策略实现多语言知识迁移。Babel进一步将这些技术整合,并通过层扩展实现规模化提升。

2. 语言覆盖与数据优化

Babel特别关注低资源语言的覆盖,如孟加拉语、乌尔都语、斯瓦希里语、爪哇语等,这些语言在开源LLM中长期被忽视。其数据策略包括:

  • 多源高质量语料:整合Wikipedia、新闻、教科书及结构化语料(如MADLAD-400、CulturaX);
  • 基于LLM的质量分类器:用于数据清洗与筛选,确保训练数据的纯净度。

类似技术曾在Qwen2模型中应用,例如使用模型本身过滤低质量数据并合成新数据,同时优化多语言混合比例以模拟人类学习过程。

3. 性能表现

推理与翻译任务:Babel-9B在MGSM推理任务中得43.4,Flores-200翻译任务中得55.1,均优于同类9B模型(如GLM4-9B、Gemma2-9B)。

低资源语言提升:Babel在低资源语言上的表现较此前模型提升5-10%,部分得益于达摩院在东南亚语言(如高棉语、老挝语)处理上的技术积累。

4. 应用场景与微调

Babel的监督微调(SFT)模型基于超过100万对话数据集训练,性能接近GPT-4o等商业模型。这与SeaLLM-chat的文化适应性微调策略类似,后者通过本地化调整实现对社会规范和法律背景的精准理解。

5. 技术生态关联

  • 与PolyLM的关系:PolyLM(支持15种非英语语言)可视为Babel的前期探索,两者均强调多语言平衡性与课程学习,但Babel通过更大参数规模(83B)和层扩展技术实现跃升。
  • 与语音识别项目的区别:证据中提及的其他“Babel”项目(如IARPA Babel语音识别计划)与达摩院的LLM无直接关联,需注意区分。

总结

Babel的推出标志着达摩院在多语言LLM领域的技术整合与突破,其结构化层扩展、低资源语言支持及数据优化策略为行业树立了新标杆。未来,结合达摩院在东南亚语言模型(SeaLLMs)和多语言迁移学习(PolyLM)中的经验,Babel有望进一步推动全球化AI服务的普惠性。


本文转载自公众号Halo咯咯    作者:基咯咯

原文链接:​​https://mp.weixin.qq.com/s/D0Ks4coVd2rsmuCYJkMG7g​


©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐