阿里版“Her”上线即开源!7B模型太全能了,全面击败Gemini-1.5-pro!所有用户都能试玩! 原创

发布于 2025-3-27 13:46
548浏览
0收藏

出品 | 51CTO技术栈(微信号:blog51cto)

Qwen Chat上新实时语音聊天 + 视频聊天了!

可以像打电话或视频通话一样与AI进行聊天,Qwen也有自己的Her了。

更更重要的是,一向大方开源的千问,直接开源了背后的模型 Qwen2.5-Omni-7B( Apache 2.0 许可),并发布了详细的技术报告!

做了OpenAI应该干的事!

Qwen Chat:​

​ https://chat.qwenlm.ai​

GitHub:​

​ https://github.com/QwenLM/Qwen2.5-Omni​

目前每天有10次体验机会:

阿里版“Her”上线即开源!7B模型太全能了,全面击败Gemini-1.5-pro!所有用户都能试玩!-AI.x社区图片

阿里版“Her”上线即开源!7B模型太全能了,全面击败Gemini-1.5-pro!所有用户都能试玩!-AI.x社区图片

Qwen2.5-Omni-7B模型,它是一个 Omni(全能)模型。简单说,就是一个模型能同时理解 文本、音频、图像、视频多种输入,并且能输出文本和音频。

与类似规模的单模态模型和封闭源模型(如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro)相比,Qwen2.5-Omni 在所有模态上都表现出强劲的性能。 

阿里版“Her”上线即开源!7B模型太全能了,全面击败Gemini-1.5-pro!所有用户都能试玩!-AI.x社区图片

我们看一下官方Demo案例,感受下Qwen2.5-Omni-7B的强大。

Qwen2.5-Omni-7B可以成为绘画搭子,不仅成功识别了小姐姐正在画的吉他和毛绒熊,还能给出一些建议,提出可以画一个正在弹吉他的熊,让画面更加有趣:

阿里版“Her”上线即开源!7B模型太全能了,全面击败Gemini-1.5-pro!所有用户都能试玩!-AI.x社区

而且,AI还可以聆听团队成员的自我介绍,并在结束后回答“听力问题”,成功对应了特定成员的研究方向,并且还有记忆能力,可以回忆成员有没有戴眼镜等等:

阿里版“Her”上线即开源!7B模型太全能了,全面击败Gemini-1.5-pro!所有用户都能试玩!-AI.x社区

目前Qwen提供了四款音色,分别是三个女声,和一款男声。

阿里版“Her”上线即开源!7B模型太全能了,全面击败Gemini-1.5-pro!所有用户都能试玩!-AI.x社区图片


评论区网友对千问的更新表达了惊喜,因为Qwen2.5-Omni-7B的开源,这周的模型发布变得更激烈、更精彩了。

阿里版“Her”上线即开源!7B模型太全能了,全面击败Gemini-1.5-pro!所有用户都能试玩!-AI.x社区图片

阿里版“Her”上线即开源!7B模型太全能了,全面击败Gemini-1.5-pro!所有用户都能试玩!-AI.x社区图片

也有网友认为,提供“虚拟女友”的音色,不符合千问通用模型的“人设”。

阿里版“Her”上线即开源!7B模型太全能了,全面击败Gemini-1.5-pro!所有用户都能试玩!-AI.x社区图片

有网友在一手体验后,感觉功能复杂,虽然有娱乐性,但从技术上看没有做到极致,因此需要继续努力。

阿里版“Her”上线即开源!7B模型太全能了,全面击败Gemini-1.5-pro!所有用户都能试玩!-AI.x社区图片

核心架构:Thinker-Talker,从思考到交流

Qwen2.5-Omni 采用 Thinker-Talker 架构。Thinker 的功能类似大脑,负责处理和理解来自文本、音频和视频模式的输入,生成高级表示和相应的文本。

Talker 的功能就像人的嘴巴,以流式方式接收由 Thinker 生成的高级表征和文本,并流畅地输出离散的语音标记。思考者是一个变形解码器,并配有音频和图像编码器,以方便信息提取。相比之下,Talker 被设计为双轨自回归变换解码器架构。

在训练和推理过程中,Talker 直接从 Thinker 接收高维表示,并共享 Thinker 的所有历史上下文信息。因此,整个架构作为一个具有凝聚力的单一模型运行,实现了端到端的训练和推理。

阿里版“Her”上线即开源!7B模型太全能了,全面击败Gemini-1.5-pro!所有用户都能试玩!-AI.x社区图片

本文转载自​​51CTO技术栈​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报


回复
相关推荐