出品 | 51CTO技术栈(微信号:blog51cto)
Mistral 发布了首个代码模型 Codestral-22B!
该模型的疯狂之处不仅在于训练了80多种编程语言,包括许多代码模型忽略的Swift等。
还在于他非同一般的速度。要求用Go语言编写一个“发布/订阅”系统。这边的GPT-4o还在输出,Codestral已经用快到看不清的速度交卷了!
由于该模型刚刚推出,尚未公开测试。但根据Mistral的负责人说法, Codestral是目前表现最佳的开源代码模型。
图片
感兴趣的朋友可以移步:
-抱抱脸 :https://huggingface.co/mistralai/Codestral-22B-v0.1
-博客:https://mistral.ai/news/codestral/
从博客来看,Codestral在长文本以及多种编程语言的性能测试中都超过了对手,包括70B的CodeLlama、33B的Deepseek Coder和70B的Llama 3 70B。
图片
下面来一起细致地看看代码模型的“王”,Codestral强在何处。
1.Codestral要为代码模型立标准
作为 22B 机型,Codestral 为代码生成的性能/延迟空间设定了一个新标准。在核心上,Codestral 22B具有32K的上下文长度,为开发人员提供了在各种编程环境和项目中编写和与代码交互的能力。
图片
上图:Codestral 拥有 32k 的较大上下文窗口(不同于竞争对手的 4k、8k 或 16k),在代码生成的远程评估 RepoBench 中优于所有其他模型。
Codestral近乎疯狂地在超过80种编程语言的数据集上进行了训练,这使其适合于各种编程任务,包括从头开始生成代码、完成编码功能、编写测试和使用中间填充机制完成任何部分代码。
它涵盖的编程语言包括流行的SQL、Python、Java、C和C++,以及更特定的Swift和Fortran等,成为编程界的多面手。
Mistral表示,Codestral可以帮助开发人员提升他们的编码水平,加速工作流程,并在构建应用程序时节省大量的时间和努力。更不用说,它还可以帮助减少错误和漏洞的风险。
上图:Codestral性能在不同编程语言上的HumanEval评估
在HumanEval上评估Python代码生成和CruxEval测试Python输出预测时,该模型分别以81.1%和51.3%的分数超越了竞争对手。它甚至在Bash、Java和PHP的HumanEval上也都取得了第一名。
值得注意的是,该模型在C++、C和Typescript的HumanEval上的表现并不是最好的,但所有测试的平均分数最高,为61.5%,略高于Llama 3 70B的61.2%。在评估SQL性能的Spider评估中,它以63.5%的分数排名第二。
一些流行的开发人员生产力和人工智能应用开发工具已经开始测试Codestral。这包括LlamaIndex、LangChain、Continue.dev、Tabnine和JetBrains等大名鼎鼎的名字。
“从我们的初步测试来看,它是一个生成代码工作流的好选择,因为它快速,有有利的上下文窗口,并且指导版本支持工具使用。我们使用LangGraph进行了自我纠正代码生成的测试,使用指导Codestral工具使用进行输出,并且它开箱即用效果非常好,”LangChain的首席执行官兼联合创始人Harrison Chase说。
另外,Codestral已经与JetBrains、SourceGraph和LlamaIndex在内的几家行业伙伴展开合作。LlamaIndex的CEO Jerry Liu提到他对Codestral的测试说,“到目前为止,它始终能生成高度准确和实用的代码,即使是复杂的任务也不例外。例如,当我要求它完成一个创建新的 LlamaIndex 查询引擎的非繁琐函数时,它生成的代码尽管基于较旧的代码库,却能无缝运行。”
2.如何开始使用Codestral?
Mistral在Hugging Face上提供Codestral 22B,在其自己的非商业许可下,允许开发人员将该技术用于非商业目的、测试和支持研究工作。
该公司还通过两个API端点提供该模型:codestral.mistral.ai和api.mistral.ai。
前者旨在为希望在IDE内部使用Codestral的指导或中间填充路线的用户设计。它配有个人级别的API密钥,没有通常的组织速率限制,在八周的测试期间免费使用。而api.mistral.ai是更广泛的研究、批量查询或第三方应用开发的常规端点,将每个Token的查询计费。
比较有趣的是,Mistral在 Le Chat 上公开了 Codestral 的指导版本,允许通过他们免费的对话界面 Le Chat 访问Codestral。开发人员可以自然、直观地与 Codestral 互动,充分利用该模型的功能。
3.写在最后
国产大模型中同样有表现惊艳的代码模型,例如阿里不久前开源的70亿参数大模型CodeQwen1.5-7B。
在HumanEval测试中,CodeQwen1.5-7B-Chat版本的得分甚至超过了GPT-4早期版本,比GPT-4-Turbo(2023年11月版本)略低。
图片
CodeQwen的开发者Binyuan Hui在祝贺时不忘提醒Mistral的联创Guillaume Lample,带上通义一起测评下!
图片
估计我们很快就能看到CodeQwen1.5-7B与Codestral在竞技场上一决高下了。