小扎深夜炸场!Meta首个开源多模态模型Llama 3.2横空出世,能力不输GPT4o-mini;小扎:开源的拐点来了!

原创 精选
人工智能
Llama 3.2 包括小型和中型模型(参数为 11B 亿和 90B 亿),以及更轻量化的仅文本模型(参数为 1B和 3B),扎克伯格称其为“能运行在设备上的最佳模型”,并透露未来将在眼镜设备上使用。

起猛了!小扎又又又带着他的开源大模型走来了!

Meta Connect 上,拥有视觉能力的 Llama 3.2推出!这是该大模型家族首个开源的多模态模型。

图片图片

Llama 3.2 包括小型和中型模型(参数为 11B 亿和 90B 亿),以及更轻量化的仅文本模型(参数为 1B和 3B),扎克伯格称其为“能运行在设备上的最佳模型”,并透露未来将在眼镜设备上使用。

与其前身一样,Llama 3.2 的 1B 和 3B 模型支持 128K 的上下文长度,在端侧模型中可谓遥遥领先。根据Meta透露,这些模型在发布当天就已支持高通(Qualcomm)和联发科(MediaTek)硬件,并针对 Arm 处理器进行了优化。

Meta 还首次分享了官方的 Llama stack 发行版本,以便开发者可以在各种环境中使用这些模型,包括本地、设备端、云端和单节点。

Llama 3.2 模型可以在 llama.com 和 Hugging Face 上以及 Meta 的合作平台上下载。还能通过智能助手Meta AI,试用模型的多模态能力。

Hugging Face 地址:

https://huggingface.co/meta-llama

最后扎克伯格再次秀了一把开源情怀,他提到,闭源模型们试图降低价格以保持与Llama的竞争优势。然而,“开源已经是、并将继续是最具成本效益、可定制、可信且高性能的选择。我们已经到达了行业的一个拐点,它开始成为行业标准,可以称其为 AI 领域的 Linux。”

1.媲美GPT4o-mini,开源视觉模型火力十足

Meta 在两个月前发布了 Llama 3.1,至今该模型已实现 10 倍的增长。

扎克伯格表示:“Llama 继续快速进步,它正在实现越来越多的功能。”

现在,最大的两个 Llama 3.2 模型(110 亿和 900 亿参数)有了视觉能力,能够理解图表和图形、为图像生成标题以及识别周围的环境。例如,用户可以询问他们的公司在哪个月取得了最佳销售成绩,模型将基于现有的图表推理出答案。

根据Meta的评估,Llama 3.2 视觉模型在图像识别和一系列视觉理解任务上与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 相媲美。

图片图片

AI大神 Jim Fan 带来了一手的新鲜实测,“我刚刚调出了 Llama-3.2-11B (vision) 的视觉语言基准测试数据。令人惊讶的是,整个开源社区在轻量级模型方面并不落后!”

图片图片

图片图片

Llama 3.2的超强能力也让许多大神自觉“手痒”。已经有人连夜搓了基于其视觉能力的开源工具出来,效果惊艳,草图也能秒变APP。

图片图片


2.Llama 3.2:视觉模型背后的技术细节

作为首批支持视觉任务的 Llama 模型,11B 和 90B 模型采用了全新的模型架构,以支持图像推理任务。

Meta技术报告中提到,为了支持图像输入,他们训练了一组适配器权重,将预训练的图像编码器与预训练的语言模型集成。

该适配器由一系列交叉注意力层组成,将图像编码器的表示传递给语言模型。在适配器训练过程中,我们在图文配对数据上训练,以对齐图像表示和语言表示。适配器训练期间,我们更新了图像编码器的参数,但故意不更新语言模型的参数,这样可以保留语言模型的文本处理能力,方便开发者将其作为 Llama 3.1 模型的替代品。

Llama 3.2的训练流程包括多个阶段,从预训练的 Llama 3.1 文本模型开始。首先,Llama添加了图像适配器和编码器,然后在大规模噪声图文配对数据上进行预训练。接着在中等规模、高质量的领域内及知识增强的图文配对数据上进行训练。

在后续训练中,Llama团队采用了与文本模型类似的方式,进行多轮对齐,包括监督微调、拒绝采样和直接偏好优化。

使用 Llama 3.1 模型对领域内的图像生成和扩展问答,并利用奖励模型对所有候选答案进行排序,以提供高质量的微调数据。此外,Llama 3.2还加入了安全防护数据,确保模型在安全性高的同时保持有用性。

3.小扎:Meta AI 将成为全球第一的智能助手

Llama 3.2 的横空出世,使得 Meta AI 拥有了“声音”。

该模型将在 WhatsApp、Messenger、Facebook 和 Instagram 上以明星语音响应语音或文本命令。Meta AI 还可以对聊天中分享的照片做出回复,并添加、删除或更改图像以及添加新的背景。Meta 表示,它还在尝试为 Meta AI 开发新的翻译、视频配音和唇同步工具。

图片图片

扎克伯格在演讲中表示:“我认为语音将比文本更自然地与 AI 进行交互,它确实要好得多。”

扎克伯格开源的底气,就在于他们的商业模式并不依靠获得模型访问权而营利,但是他已经将应用视为 Meta 的护城河。

现在,Meta AI 月活跃用户接近5亿,日活用户也以突破4000万大关。

扎克伯格吹嘘说,Meta AI 正在成为全球使用最广泛的助手——“可能已经做到了。”

参考链接:https://venturebeat.com/ai/meta-llama-3-2-vision-models-to-rival-anthropic-openai/

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

责任编辑:武晓燕 来源: 51CTO技术栈
相关推荐

2024-10-05 10:57:21

2024-07-24 11:30:04

2010-03-25 10:04:10

UbuntuOne M

2024-04-19 10:32:08

2023-09-28 12:06:23

AI模型

2023-02-21 21:48:29

2020-10-12 14:47:25

芯片半导体技术

2020-10-28 11:54:05

AI 数据人工智能

2010-12-09 09:09:37

2023-06-20 09:24:20

AI开源

2018-11-29 10:49:36

2021-12-17 07:00:56

ESMongoDBRedisJson

2016-10-08 23:30:58

Power8云计算

2024-01-30 20:36:09

GPT-4羊驼代码

2022-05-12 15:25:16

恶意软件网络攻击

2013-11-01 09:07:15

2009-05-07 18:50:35

四核Nehalem服务器

2023-07-19 12:09:36

大模型Llama 2扎克伯格

2014-01-17 14:08:45

移动os国产软件

2023-10-26 19:44:08

小i机器人
点赞
收藏

51CTO技术栈公众号