悟道2.O问世，构建以中文为核心的超大规模预训练模型平台生态-悟道2.0模型

【51CTO.com原创稿件】

　　去年5月，GPT-3问世。OpenAI 发布的这个预训练模型拥有 1750 亿参数量，不仅能写文章、答题、翻译，还具备多轮对话、敲代码、数学计算等能力。其所使用的最大训练数据集在处理前就达到了 45TB，至此GPT-3一跃成为AI界的“流量”明星，褒扬与批评齐飞，质疑与争议不断，但无论外界评价如何，它都展示了一条通往通用人工智能的可行路径，因此构建超大规模预训练模型成为潮流所向。

　　今年3月，中国 AI 学界迎来了第一个超大规模预训练模型“悟道”。这个以中文为核心的超大规模预训练模型由智源研究院牵头，汇聚清华、北大、人大、中科院等高校院所以及诸多企业的 100 余位 AI 领域专家共同研发，从基础性能、有效使用到预训练模型扩展，提出了一系列创新解决方法。

　　在此3个月后，“悟道2.0”现世，不仅在预训练模型架构、微调算法、高效预训练框架方面均实现了原始理论创新，在世界公认的多个 AI Benchmark 榜单上也表现不俗，取得了多项任务能力的领先地位。

　　清华大学教授，智源研究院学术副院长唐杰介绍，“悟道”的定位，从一开始就不止要做“中国第一”，而是瞄向世界顶尖水平，让机器像人一样思考，迈向通用人工智能。

　　何以悟道

　　唐杰在采访中总结了“悟道2.0”的几个特点——最大、准确、实用。

　　首先，所谓“最大”指的是“悟道2.0”参数达到1.75万亿，打破了此前谷歌 Switch Transformer 预训练模型创造的 1.6 万亿参数记录，也超过OpenAI开发的第三代生成式预训练Transformer（GPT-3）10倍，是全球最大预训练模型。尤其值得⼀提是，这个世界最⼤万亿模型完全基于国产超算平台打造，其基础算法是在中国的神威超算上完成模型训练。

　　之所以智源与智谱AI团队能打造目前“最大”的预训练模型是因为团队首创的FastMoE技术打破了国外MoE技术存在的限制瓶颈。FastMoE作为首个支持PyTorch框架的MoE系统，具有易用性强、灵活性好、训练速度快的优势，可在不同规模的计算机或集群上支持研究者探索不同的MoE模型在不同领域的应用。相比直接使用PyTorch实现的版本，提速47倍。FastMoE可以支持NoisyGate、GShard、Swith Transformer等复杂均衡策略，支持不同专家不同模型，目前已基于阿里 PAI 平台，亦在国产神威众核超算平台成功部署。

　　其次，在“准确”方面，“悟道2.0”同样表现亮眼，在 ImageNet、LAMA、LAMBADA、SuperGLUE、MSCOCO 等项目都取得了突破，获得了9项任务上的 SOTA，比第二名的表现要出色很多。而且目前“悟道2.0”在问答、绘画、作诗、视频等任务中都已逼近图灵测试。

　　然后，在“实用”方面，“悟道2.0”也采取了多项措施积极推进。众所周知，大规模预训练模型的参数规模通常远超传统的专用人工智能模型，在算力资源、训练时间等方面消耗巨大。为了提升大规模预训练模型的产业普适性和易用性，悟道团队搭建高效预训练框架，实现了全链路的原创突破或迭代优化，预训练效率大幅提升。而且“悟道2.0”和GPT-3小批量付费使用的模式不同，将向AI社区和企业公开预测模型，任何个人或企业均可免费申请使用其公开API。（https://wudaoai.cn/home）

　　生态构建

　　通常AI科学界认为模型参数越大，意味着通用人工智能潜能越强。不过大模型的出现只是基石，还需要大生态的加持，才能真正加速人工智能应用的落地。唐杰在采访中提到：“我们在思考一个问题——生态。怎么构建生态让万亿模型有生命力，而不是简单的数数字。”

　　“我们要建立‘悟道’生态，把产业生态、开源生态，应用生态、数据生态全部打造起来，让所有人参与其中。你可以做研发、应用甚至产业化，如果你只有数据，那也可以贡献数据、分享数据。在生态助力的情况下，整个模型才能越做越智能。”

　　为了加速生态构建，“悟道2.0”在效率和易用性上尽力为开发者提供了便利。

　　悟道 2.0预训练框架具有“高效编码、高效模型、高效训练、高效微调、高效推理”五大特点，切实面向产业界的应用。悟道 2.0预训练框架还整合了全球最大的中文语料库WuDaoCorpora，包括最大中文文本数据集、多模态数据集与中文对话数据集。

　　任何企业、开发者拿到“悟道 2.0”预训练框架以后，都可以非常快地进行部署，然后应用在实际业务中。目前，“悟道 2.0”已经与美团、小米、快手、360、搜狗、寒武纪、第四范式、推想科技、好未来、小冰科技等达成合作共建模型生态。

　　“炼大模型”虽然是时之所趋，但也会有人提出质疑：超大规模预训练模型的进化是否是实现通用人工智能的必要条件呢？对此，唐杰给出了这样的回答。

　　“我们只能说这是一条可行的路径。几年前，通用人工智能战略，也就是AGI战略提出时很多人要么嗤之以鼻，要么觉得不可能。但当下在这条路上，大家至少看到了一点点成绩，所以我觉得这是一种非常可能的路径。未来是否一定是唯一或者必要的，这不一定。”

【51CTO原创稿件，合作站点转载请注明原文作者和出处为51CTO.com】