悟道2.O问世,构建以中文为核心的超大规模预训练模型平台生态

原创
人工智能
“悟道”的定位,从一开始就不止要做“中国第一”,而是瞄向世界顶尖水平,让机器像人一样思考,迈向通用人工智能。

【51CTO.com原创稿件】

  去年5月,GPT-3问世。OpenAI 发布的这个预训练模型拥有 1750 亿参数量,不仅能写文章、答题、翻译,还具备多轮对话、敲代码、数学计算等能力。其所使用的最大训练数据集在处理前就达到了 45TB,至此GPT-3一跃成为AI界的“流量”明星,褒扬与批评齐飞,质疑与争议不断,但无论外界评价如何,它都展示了一条通往通用人工智能的可行路径,因此构建超大规模预训练模型成为潮流所向。

  今年3月,中国 AI 学界迎来了第一个超大规模预训练模型“悟道”。这个以中文为核心的超大规模预训练模型由智源研究院牵头,汇聚清华、北大、人大、中科院等高校院所以及诸多企业的 100 余位 AI 领域专家共同研发,从基础性能、有效使用到预训练模型扩展,提出了一系列创新解决方法。

  在此3个月后,“悟道2.0”现世,不仅在预训练模型架构、微调算法、高效预训练框架方面均实现了原始理论创新,在世界公认的多个 AI Benchmark 榜单上也表现不俗,取得了多项任务能力的领先地位。

  清华大学教授,智源研究院学术副院长唐杰介绍,“悟道”的定位,从一开始就不止要做“中国第一”,而是瞄向世界顶尖水平,让机器像人一样思考,迈向通用人工智能。

  何以悟道

  唐杰在采访中总结了“悟道2.0”的几个特点——最大、准确、实用。

  首先,所谓“最大”指的是“悟道2.0”参数达到1.75万亿,打破了此前谷歌 Switch Transformer 预训练模型创造的 1.6 万亿参数记录,也超过OpenAI开发的第三代生成式预训练Transformer(GPT-3)10倍,是全球最大预训练模型。尤其值得⼀提是,这个世界最⼤万亿模型完全基于国产超算平台打造,其基础算法是在中国的神威超算上完成模型训练。

  之所以智源与智谱AI团队能打造目前“最大”的预训练模型是因为团队首创的FastMoE技术打破了国外MoE技术存在的限制瓶颈。FastMoE作为首个支持PyTorch框架的MoE系统,具有易用性强、灵活性好、训练速度快的优势,可在不同规模的计算机或集群上支持研究者探索不同的MoE模型在不同领域的应用。相比直接使用PyTorch实现的版本,提速47倍。FastMoE可以支持NoisyGate、GShard、Swith Transformer等复杂均衡策略,支持不同专家不同模型,目前已基于阿里 PAI 平台,亦在国产神威众核超算平台成功部署。

  其次,在“准确”方面,“悟道2.0”同样表现亮眼,在 ImageNet、LAMA、LAMBADA、SuperGLUE、MSCOCO 等项目都取得了突破,获得了9项任务上的 SOTA,比第二名的表现要出色很多。而且目前“悟道2.0”在问答、绘画、作诗、视频等任务中都已逼近图灵测试。

  然后,在“实用”方面,“悟道2.0”也采取了多项措施积极推进。众所周知,大规模预训练模型的参数规模通常远超传统的专用人工智能模型,在算力资源、训练时间等方面消耗巨大。为了提升大规模预训练模型的产业普适性和易用性,悟道团队搭建高效预训练框架,实现了全链路的原创突破或迭代优化,预训练效率大幅提升。而且“悟道2.0”和GPT-3小批量付费使用的模式不同,将向AI社区和企业公开预测模型,任何个人或企业均可免费申请使用其公开API。(https://wudaoai.cn/home)

  生态构建

  通常AI科学界认为模型参数越大,意味着通用人工智能潜能越强。不过大模型的出现只是基石,还需要大生态的加持,才能真正加速人工智能应用的落地。唐杰在采访中提到:“我们在思考一个问题——生态。怎么构建生态让万亿模型有生命力,而不是简单的数数字。”

  “我们要建立‘悟道’生态,把产业生态、开源生态,应用生态、数据生态全部打造起来,让所有人参与其中。你可以做研发、应用甚至产业化,如果你只有数据,那也可以贡献数据、分享数据。在生态助力的情况下,整个模型才能越做越智能。”

  为了加速生态构建,“悟道2.0”在效率和易用性上尽力为开发者提供了便利。

  悟道 2.0预训练框架具有“高效编码、高效模型、高效训练、高效微调、高效推理”五大特点,切实面向产业界的应用。悟道 2.0预训练框架还整合了全球最大的中文语料库WuDaoCorpora,包括最大中文文本数据集、多模态数据集与中文对话数据集。

  任何企业、开发者拿到“悟道 2.0”预训练框架以后,都可以非常快地进行部署,然后应用在实际业务中。目前,“悟道 2.0”已经与美团、小米、快手、360、搜狗、寒武纪、第四范式、推想科技、好未来、小冰科技等达成合作共建模型生态。

  “炼大模型”虽然是时之所趋,但也会有人提出质疑:超大规模预训练模型的进化是否是实现通用人工智能的必要条件呢?对此,唐杰给出了这样的回答。


  “我们只能说这是一条可行的路径。几年前,通用人工智能战略,也就是AGI战略提出时很多人要么嗤之以鼻,要么觉得不可能。但当下在这条路上,大家至少看到了一点点成绩,所以我觉得这是一种非常可能的路径。未来是否一定是唯一或者必要的,这不一定。”

【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】


责任编辑:张洁 来源: 51CTO
相关推荐

2021-03-22 11:16:50

人工智能应用基础设施

2020-09-25 09:52:48

机器学习人工智能计算机

2020-07-08 15:36:18

百度大脑

2024-08-29 12:56:03

2020-11-12 09:55:10

百度

2020-06-11 17:17:55

百度大脑

2016-12-14 11:44:25

阿里Docker大数据

2018-07-27 09:52:10

监控阿里智能

2020-07-23 14:03:09

数据中心数据网络

2021-03-16 10:28:41

数据中心IT云计算

2024-04-30 07:00:00

公共云云策略云计算

2022-12-30 14:14:51

数据中心服务器

2020-12-11 19:52:06

数据中心超大规模数据中心

2023-02-14 11:24:36

2011-12-16 09:54:17

网络架构网络架构系统架构系统

2020-11-18 10:29:07

模型人工智能开源

2015-03-23 16:10:58

一体机解决方案SAP华为

2021-03-24 11:13:12

数据中心云计算物联网

2023-01-11 21:11:37

RabbitMQRocketMQ消息中间件

2024-10-21 17:40:22

点赞
收藏

51CTO技术栈公众号