两位清华校友打造,在GPT-4核心优势之一使用工具上实现超越。
连HuggingFace CEO都来帮它造势:
它的名字叫“NexusRaven”,参数只有130亿。
出色的函数调用能力连网友都忍不住称赞,既可以并行也可以嵌套。
背后团队则更令人瞩目:
一共三位创始人,除了两位清华校友(其中一位拿过清华特奖),还有一位在工业界干了15年的AI大牛。
他们创办的公司(也就是该模型所属的公司),在种子轮就已经融资1060万美元(约合人民币7600万)。
如此大有来头的模型和团队,我们忍不住扒了扒。
清华特奖得主联合创办
这家公司名叫Nexusflow,今年9月刚刚亮相,并当即宣布千万美元级种子轮融资。
它在短短不到3个月的时间就发布了2代大模型NexusRaven,其中第二代直接单点突破GPT-4,引起开源社区大量关注。
NexusRaven的开源和商用,是完全不用担心侵权的那种,因为它的训练不涉及任何由专有LLM(如GPT-4) 生成的数据。
当然,隐私数据就更不用担心了,NexusRaven称自己的安全性比GPT-4要高了21个百分点。
三位创始人中,CEO为焦剑涛。
他本科毕业于清华大学电子工程系,2018年从斯坦福博士毕业,进入加州大学伯克利分校担任助理教授。
在伯克利,作为BAIR的一员,焦剑涛与Michael Jordan、姚班校友朱晨光等均有合作。
值得一提的是,焦剑涛是2011年清华特奖得主,还与有“清华学神”之称的学弟韩衍隽有过一段“传承”故事:
韩衍隽曾表示,自己在美国交流期间,受到过焦剑涛很大的影响。
Nexusflow并非焦剑涛的第一次创业。在他攻读博士期间,就曾与另一位清华电子系校友张文铸联合创立了“AI+教育”的清帆科技。
CTO Jian Zhang,同样是清华电子系校友,2020年毕业于斯坦福大学计算机科学专业。
加入Nexusflow创业团队之前,Jian Zhang曾任SambaNova Systems机器学习总监,该公司是一家人工智能芯片初创公司,估值超50亿美元。
最后一位创始人Kurt Keutzert是加州大学伯克利分校教授,h指数为100,论文总引用量超5万,研究重点包括用并行和分布式计算加速深度神经网络训练、计算机视觉等AI方向。
他曾是贝尔实验室的一员,后于1991-1998年任EDA公司新思科技CTO和高级副总裁。1997年,他拿到了加州大学伯克利分校的教职,进入学术界工作。
有意思的是,Keutzert事实上并未离开工业界——他一直以来还兼任着天使投资人和顾问的角色。
而他和博士生Forrest Iandola共同创立的DeepScale——一家研究自动驾驶汽车感知系统技术的公司,还在2019年被特斯拉收购了。
三位背景过硬的大佬,创办的公司Nexusflow所瞄准的方向,则是大模型在网络安全中的应用。
用官方的话说,是要“利用生成式AI彻底改变网络安全”,包括:
用统一对话界面简化软件配置、集成和使用,提供解决方案简化网络安全运营中检测、调查、响应和修复的各个环节,以及在大模型时代保护用户不受提示注入、数据泄露等新的安全问题的影响等等。
简而言之,就是在流程上解放网络安全从业人员。
公开两个月,即发布NexusRaven-V2,也正是焦剑涛、Kurt Keutzer和Jian Zhang这三位创始人目标的初步体现:
用一个更经济高效的模型,实现更强大的“工具”调用能力。
那么,它旗下的“明星出品”:NexusRaven-V2,究竟什么样?
模型更小,函数调用能力更强
据介绍,NexusRaven-V2完全基于开放数据集打造,并在CodeLlama-13B-instruct上进行了指令微调。
它的主要功能就是将人类给出的自然语言指令转换为可执行代码,然后利用代码来自动使用工具完成任务。
听起来和之前很火的AutoGPT很类似。
从官方给出的demo来看,它可以进行最简单的“附近美食”查找:
只需问它“Get me good food nearby?”,它就能立刻编写出几行代码,然后开始定位你的城市、将城市坐标转换为经纬度、领取目标任务(20个饭店建议)以及按距离从远到近排序。
最终给出每一个饭店的谷歌地图,还能点击进行查看详细评分等信息。
以及最最后还有一个文字版的总结。
稍微复杂一些的任务也行,比如找出旧金山市政厅20英里以内、每晚价格200美元以上的酒店。
同样的流程:代码、执行任务、出结果,包含地图和最终列表总结。
当然,还可以进行深度对比,让它评价几家饭店各自的优势。
总的来说,不管什么任务,都是靠它写出来的代码将人类指令转化为精确的软件工具操作来完成,整个过程也相当快,1分钟左右。
事实证明,在人工生成的9项基准测试中,只有130亿参数的NexusRaven-V2做到了58.2%的平均调用成功率,比GPT-4高出4个百分点(在零样本情况下)。
其中,两者在单个或并行函数调用这种简单任务上的表现差不多。
但如果再单看复杂的嵌套函数调用任务,NexusRaven-V2的成绩比GPT-4表现得要更好,直接高出了7个百分点。
此外,能力测试还纳入了9项操作现实世界软件的任务,结果是有6项NexusRaven-V2也都超过GPT-4。
除此之外,团队还介绍,函数的变量在发生改变时,NexusRaven-V2还表现出比GPT-4更强的鲁棒性。
值得一提的是,为了确保结果可重复以及标准化函数调用评估指标,以上测试基准现在也一并公开发布。
以下是三种函数类型示例,有单个的、并行的,也有需要嵌套操作的。
大家可在Huggingface上获取(具体入口可从NexusRaven-V2的GitHub界面获得)。
如果你对NexusRaven-V2模型本身感兴趣,团队也已经发布了专门的Python包“nexusraven”,使用它就可以将模型与你已有的copilot或agent工具进行无缝集成(Colab上有教程)。
One More Thing
最后,不得不说,自Llama之后,开源大模型赛道越来越有群星汇聚之势。
这边130亿参数模型跟GPT-4掰上了手腕,在欧洲,“欧版OpenAI”Mistral AI最新估值已经冲破20亿美元,在短短六个月中增长了7倍多。
而就在最近,Mistral AI还靠一个磁力链接轰动了整个大模型社区:开源首个MoE大模型,也就是坊间传闻中GPT-4采用的方案。
这不禁让人好奇:开源模型,要崛起了吗?