新开源之王来了!1320亿参数,逻辑数理全面打赢Grok,还比Llama2-70B快1倍

人工智能 新闻
在总参数量接近Llama2-70B的2倍的情况下,DBRX的生成速度也比Llama2-70B快1倍。

“最强”开源大模型之争,又有新王入局:

大数据巨头Databricks,刚刚发布MoE大模型DBRX,并宣称:

它在基准测试中击败了此前所有开源模型。

包括同为混合专家模型的Grok-1和Mixtral。

图片

新王搅局,迅速引发了开源社区的热议。

毕竟,仅从纸面数据来看,DBRX颇具特点:总参数量为1320亿,但因为是混合专家模型,每次激活参数量仅为360亿

就是说,在总参数量接近Llama2-70B的2倍的情况下,DBRX的生成速度也比Llama2-70B快1倍

图片

△DBRX vs Llama2-70B

另外,DBRX是在12T token上从头训练的,训练数据量是Llama2的6倍,也就是Chinchilla定律推荐量的18倍。

网友们的第一反应be like:

图片

首席科学家:打赌输了就把头发染蓝

来看DBRX的具体细节。

DBRX由16个专家模型组成,每次训练推理会有4个专家处于激活状态。其上下文长度为32K。

为了训练DBRX,Databricks团队从云厂商那里租用了3072个H100。

一个细节是,团队向Wired透露,经过两个月的训练之后,DBRX已经在基准测试中取得了不错的分数。而在那个时候,他们买的云资源还能再跑一个星期。

团队因此产生了小小的分歧:是用这些资源来训练一个小杯版本,还是再投喂给模型一些高质量数据,用课程学习(curriculum learning)的方法来提高DBRX在一些特定任务上的能力?

经过一番热烈的内部讨论,Databricks团队最终决定走课程学习路线。

正是这一决策使他们收获颇丰:

Databricks首席科学家Jonathan Frankle(就叫他老弗吧)认为,课程学习使得DBRX“产生了有意义的变化”

具象化一点来说,就是老弗本来觉得DBRX可能搞不太定代码生成,还打赌说如果他判断错了,就去把头发染成蓝色。

而这是他的最新照片:

图片

回到正题,DBRX的测试结果显示,它在语言理解、编程、数学和逻辑方面都达到了SOTA,击败包括Llama2-70B、Mixtral和Grok-1在内的一众开源大模型。

图片

还在大多数基准测试中都击败了GPT-3.5。

图片

Databricks这次开源了DBRX的两个版本:DBRX Base和DBRX Instruct,前者是预训练基础模型,后者则经过指令微调。

老弗还对Wired透露,他们团队接下来计划对模型训练的那个“最后一周”展开研究,看看DBRX这样强大的模型是如何在其中收获额外技能的。

值得一提的是,去年6月,Databricks以13亿美元(约93亿人民币)的价格,买下了仅62名员工的AI初创公司MosaicML——

就是发布了MPT系列开源模型的那家。

老弗当时就是MosaicML的首席科学家。此后,他和他的团队一起留在了Databricks。

图片

开源社区嗨翻

DBRX发布不到4小时,已经有人把它成功部署到苹果M2芯片笔记本电脑上了。

图片

而大模型竞技场也第一时间开放了DBRX-instruct的投票。

图片

不过,也有人对DBRX的“开源”提出了质疑:

图片

根据Databricks公布的协议,基于DBRX打造的产品,如果月活超过7亿,就必须另行向Databricks提交申请。

责任编辑:张燕妮 来源: 量子位
相关推荐

2023-10-12 14:40:10

AI模型

2024-04-09 13:21:00

AI开源

2023-09-22 09:06:00

模型开源

2024-03-25 13:04:00

AI模型

2024-07-31 09:30:00

2024-05-29 14:11:00

2023-09-04 19:09:00

训练模型数据

2024-01-10 17:10:53

数据训练

2024-06-28 13:42:07

2022-10-27 08:31:31

架构

2024-03-18 15:00:48

Grok现已开源Grok-1混合专家模型

2024-03-18 08:47:34

马斯克GrokOpenAI

2023-03-22 15:14:00

数据模型

2015-12-09 14:35:55

量子计算机谷歌

2024-06-19 13:02:01

2021-06-11 09:21:20

开源SQL Parser词法语法分析器

2019-08-06 17:19:22

开源技术 趋势

2024-03-26 10:13:54

日志引擎SigLens

2023-03-01 14:25:17

LaMA代码训练
点赞
收藏

51CTO技术栈公众号