排名超过Llama-3-70B,英伟达Nemotron-4 340B问鼎竞技场最强开源模型!
前两天,英伟达突然开源了其通用大模型Nemotron的3400亿参数版本。
就在最近,竞技场更新了排名情况:
胜率热图显示,Nemotron-4 340B对阵Llama-3-70B的胜率为53%。
究竟Nemotron-4 340B表现如何?接下来一起看看。
新模型最新战绩
简单回顾一下,英伟达上周五突然宣布开源Nemotron-4 340B,该系列包括基础模型、指令模型和奖励模型,用于生成训练和改进LLM的合成数据。
Nemotron-4 340B一经发布便瞬时登顶Hugging Face RewardBench 榜一!
紧接着,竞技场新近公布了Nemotron-4 340B的一系列测评结果。
在长文本查询(长度>=500个token)中,Nemotron-4 340B排在第5位,超过Claude 3 Sonnet及Qwen 2-72B等主流开源模型。
在处理硬提示方面,Nemotron-4 340B超越了Claude 3 Sonnet和Llama3 70B-Instruct,显示出其在应对复杂和高难度查询时的卓越能力。
在整体性能评估中,Nemotron-4 340B的评分和稳定性均处于中上水平,超越了多款知名开源模型。
概括一下,Nemotron-4 340B已经取得了不错的战绩,直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,有时甚至可以和GPT-4一较高下。
其实,以前这个模型就曾登上大模型竞技场LMSys Chatbot Arena,当时它的别名是june-chatbot。
具体来说,这个模型支持4K上下文窗口、50多种自然语言和40多种编程语言,训练数据截止到2023年6月。
训练数据方面,英伟达采用了高达9万亿个token。其中,8万亿用于预训练,1万亿用于继续训练以提高质量。
在BF16精度下,模型的推理需要8块H200,或16块H100/A100 80GB。如果是在FP8精度下,则只需8块H100。
值得一提的是,指令模型的训练是在98%的合成数据上完成的。
而合成数据无疑是Nemotron-4 340B的最大亮点,它有可能彻底改变训练LLM的方式。
合成数据才是未来
面对最新排名,兴奋的网友们突然咂摸出一丝不对劲:
用340B对战70B,而且还是险胜,这事儿有点说不过去吧!
就连机器人Kimi也对此开启了“嘲讽”模式:
英伟达这波操作,参数大得像宇宙,性能却跟Llama-3-70B肩并肩,科技界的”大号小能”啊!
对此,在英伟达负责AI模型对齐和定制的Oleksii Kuchaiev拿出了关键法宝:
是的,Nemotron-4 340B商用友好,支持生成合成数据。
高级深度学习研究工程师Somshubra Majumdar对此表示大赞:
你可以用它(免费)生成你想要的所有数据
这一突破性进展,标志着AI行业的一个重要里程碑——
从此,各行各业都无需依赖大量昂贵的真实世界数据集了,用合成数据,就可以创建性能强大的特定领域LLM!
那么,英伟达具体是如何实现的呢?
一句话概括,这与它开源通常不发布的奖励模型有关。
生成高质量合成数据不仅需要优秀的指导模型,还需根据特定需求进行数据筛选。
通常,使用同一模型作为评分者(LLM-as-Judge);但在特定情况下,采用专门的奖励模型(Reward-Model-as-Judge)进行评估更为合适。
而Nemotron-4 340B指令模型可以生成高质量的数据,然后奖励模型可以过滤掉多个属性的数据。
它会根据有用性、正确性、一致性、复杂性和冗长性这5个属性,对响应评分。
另外,研究者可以使用自己的专用数据,再结合HelpSteer2数据集,定制Nemotron-4 340B基础模型,以创建自己的指令或奖励模型。
回到一开头和Llama-3-70B的对战,Nemotron-4 340B拥有更宽松的许可,或许这才是它的真正价值所在。
毕竟数据短缺早已成为业内普遍痛点。
据Epoch研究所的AI研究员Pablo Villalobos预测,到2024年年中,对高质量数据的需求超过供给的可能性为50%,到2026年发生这种情况的可能性为90%。
新的预期显示,这种短缺风险将延迟至2028年。
合成数据才是未来正逐渐成为行业共识……
模型地址:https://huggingface.co/nvidia/Nemotron-4-340B-Instruct