2月1日,面壁智能发布了旗舰端侧模型 MiniCPM,它以小博大的性能超越了 Mistral-7B,并在 MT-Bench 等榜单上表现出色。
MiniCPM 是一款能说会看、具备编程能力、拥有多模态能力的端侧模型。它不仅在性能上优秀,而且具有极低的成本,支持 CPU 推理。MiniCPM 开源,并已在主流移动操作系统上进行了适配和测试。
1、端侧成本极致降低:Mistral的1/100,GPT-4的1/360
在终端硬件厂商加速产品AI化的趋势下,面壁智能认为,成本是大模型的隐形竞争力,“比起size,我们更在意成本”。
以搭载了骁龙855芯片的OPPO手机为例,MiniCPM每秒能处理7.5 Tokens,运行5年后报废,成本为600元,由此可得170万Tokens的推理成本仅1元——MiniCPM的推理成本仅Mistral的1/100,GPT-4的1/360。
据介绍,目前MiniCPM-2B在CPU(比GPU计算吞吐量低)上就能跑起来,相较于用GPU才能运行的大模型,能够降低推理成本。与此同时,即便将大小压缩75%,MiniCPM的性能也能做到基本无损耗。
在性能上,MiniCPM-2B的中文知识能力、代码能力、数学能力已经超过Mistral-7B,而英文知识能力、逻辑能力和常识问答能力还存在一定差距。而在测试模型接近人的程度的评测榜单MT-Bench上,MiniCPM-2B的表现超过了Llama 2-70B-Chat。
图片
2、手机芯片也可运行
面壁智能团队目前验证了MiniCPM使用手机芯片进行推理的可行性。据悉,进行Int4量化后,MiniCPM只占2GB空间,具备在端侧手机进行模型部署的条件。
其中,对于Android、Harmony系统,使用开源框架MLC-LLM进行模型适配,支持文本模型、多模态模型;对于iOS,使用开源框架LLMFarm进行模型适配,仅支持文本模型。
MiniCPM让手机上具备了无需联网、无需搜索也能识图解答的能力。
图片
图片
“此前尚未有工作尝试在手机上部署多模态大模型。我们此次在MLC-LLM上验证了手机部署MiniCPM-V的可行性,能够正常输入输出,但也存在图片处理时间较长的问题,需要进一步优化。”
下图是测试的手机型号、系统和处理器信息。
图片
目前代码已开源:https://github.com/OpenBMB/MiniCPM
3、多模态模型开源
此外,据介绍面壁还开源了一个多模态模型 OmniLMM,展现出了实时动作识别和精准理解等能力。
图片
在发布会上,面壁智能演示了 Gemini 发布时同款的石头剪刀布 demo。用英文向 AI 提问:我正在玩什么游戏?大模型会回答:石头剪子布。
4、团队平均年龄28岁80%清北
据了解,面壁智能源于清华 NLP 实验室,是在国内较早开展大模型研究的团队之一,其在 2018 年发布了全球首个基于知识指导的预训练模型 ERNIE。2022 年 8 月开始公司化运作的面壁智能,去年经历了两轮融资,其推出的应用「面壁露卡」也拿到了网信办第二批大模型备案。
目前,面壁智能已经组建起 100 余人的科研团队,其中 80% 人员来自清北,平均年龄 28 岁。
面壁智能正在构建“大模型 + Agent”的双引擎战略,希望能构建出更小规模、更快速度、更低成本的解决方案。
此外,面壁智能联合创始人还做了一个剧透:“我们会在春节之后不断发布 MiniCPM 的新版本,性能还会进一步提升。我们要给大家春节的休息时间。”