鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！原创

发布于 2025-3-27 13:46

548浏览

0收藏

出品 | 51CTO技术栈（微信号：blog51cto）

Qwen Chat上新实时语音聊天 + 视频聊天了！

可以像打电话或视频通话一样与AI进行聊天，Qwen也有自己的Her了。

更更重要的是，一向大方开源的千问，直接开源了背后的模型 Qwen2.5-Omni-7B（ Apache 2.0 许可），并发布了详细的技术报告！

做了OpenAI应该干的事！

Qwen Chat:

https://chat.qwenlm.ai

GitHub:

https://github.com/QwenLM/Qwen2.5-Omni

目前每天有10次体验机会：

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！-AI.x社区图片

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！-AI.x社区图片

Qwen2.5-Omni-7B模型，它是一个 Omni（全能）模型。简单说，就是一个模型能同时理解文本、音频、图像、视频多种输入，并且能输出文本和音频。

与类似规模的单模态模型和封闭源模型（如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro）相比，Qwen2.5-Omni 在所有模态上都表现出强劲的性能。

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！-AI.x社区图片

我们看一下官方Demo案例，感受下Qwen2.5-Omni-7B的强大。

Qwen2.5-Omni-7B可以成为绘画搭子，不仅成功识别了小姐姐正在画的吉他和毛绒熊，还能给出一些建议，提出可以画一个正在弹吉他的熊，让画面更加有趣：

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！-AI.x社区

而且，AI还可以聆听团队成员的自我介绍，并在结束后回答“听力问题”，成功对应了特定成员的研究方向，并且还有记忆能力，可以回忆成员有没有戴眼镜等等：

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！-AI.x社区

目前Qwen提供了四款音色，分别是三个女声，和一款男声。

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！-AI.x社区图片

评论区网友对千问的更新表达了惊喜，因为Qwen2.5-Omni-7B的开源，这周的模型发布变得更激烈、更精彩了。

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！-AI.x社区图片

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！-AI.x社区图片

也有网友认为，提供“虚拟女友”的音色，不符合千问通用模型的“人设”。

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！-AI.x社区图片

有网友在一手体验后，感觉功能复杂，虽然有娱乐性，但从技术上看没有做到极致，因此需要继续努力。

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！-AI.x社区图片

核心架构：Thinker-Talker，从思考到交流

Qwen2.5-Omni 采用 Thinker-Talker 架构。Thinker 的功能类似大脑，负责处理和理解来自文本、音频和视频模式的输入，生成高级表示和相应的文本。

Talker 的功能就像人的嘴巴，以流式方式接收由 Thinker 生成的高级表征和文本，并流畅地输出离散的语音标记。思考者是一个变形解码器，并配有音频和图像编码器，以方便信息提取。相比之下，Talker 被设计为双轨自回归变换解码器架构。

在训练和推理过程中，Talker 直接从 Thinker 接收高维表示，并共享 Thinker 的所有历史上下文信息。因此，整个架构作为一个具有凝聚力的单一模型运行，实现了端到端的训练和推理。

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！-AI.x社区图片

本文转载自51CTO技术栈

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

赞

收藏

回复

举报

回复

相关推荐

谷歌重磅发布Gemini 1.5 Pro：能自动写影评，理解视频！

Aceryt • 3623浏览 • 0回复
7B超越百亿级，北大开源aiXcoder-7B最强代码大模型，企业部署最佳选择

轻薄滴假象 • 3558浏览 • 0回复
Meta无限长文本大模型来了：参数仅7B，已开源

轻薄滴假象 • 2034浏览 • 0回复
大模型参数量都是7B，13B和65B等背后的原因是什么？

Syrupup • 1.1w浏览 • 0回复
AlphaGo核心算法增强，7B模型数学能力直逼GPT-4，阿里大模型新研究火了

Crystalcxt • 2306浏览 • 0回复
现在，所有人都能免费用GPT-4o了！

duhorse • 3643浏览 • 0回复
Google AI 推出 Gemini 1.5 Pro API 全面提升开发者体验

uiuiAGI • 2691浏览 • 0回复
阿里新开源语音模型Qwen2-Audio ，实测优于 Gemini-1.5-pro，网友：离GPT-4o只差一步

51CTO技术栈 • 2172浏览 • 0回复
别缴“对齐税”了，未审查/对齐的模型更受欢迎！用户：纯粹版比受限版有用！

51CTO技术栈 • 3409浏览 • 0回复
Qwen开源强大、多样、实用的Qwen2.5-Coder系列（0.5B/1.5B/3B/7B/14B/32B）

Halo咯咯 • 2928浏览 • 0回复
Qwen2-VL (2B、7B、72B)：迄今为止最好的开源视觉模型！！（击败 Claude 和 GPT-4o）

老蛀虫 • 3076浏览 • 0回复
超Gemini-1.5-pro 9.5%！字节&上交&北大开源StoryTeller：生成一致性高的长视频描述

angel • 1597浏览 • 0回复
阿里重磅开源QwQ-32B：自我思考、纠正，数学能力击败o1模型

Aceryt • 6491浏览 • 0回复
谷歌AI发布Gemini 2.0 Flash：比Gemini 1.5 Pro快2倍的新AI模型

Halo咯咯 • 4982浏览 • 0回复
基于阿里开源Qwen2.5-7B-Instruct模型进行多代理RAG开发实战

51CTO内容精选 • 1658浏览 • 0回复
达摩院开源VideoLLaMA3：仅7B大小，视频理解拿下SOTA | 在线可玩

Crystalcxt • 1353浏览 • 0回复
阿里扔出王炸：全球首个开源全模态大模型Qwen2.5-Omni：7B搞定看听说写，AI越来越像人了

算家计算 • 566浏览 • 0回复
Google Gemini 2.5 Pro：AI界的“全能王”来了！

Halo咯咯 • 232浏览 • 0回复
千亿模型做不到的事，7B小模型实现了？阿里这次开源有点狠！

蜂耘网iphoneyun • 231浏览 • 0回复

LV.10

追踪IT新动向，赋能全球技术人员成长。

觉得TA不错？点个关注精彩不错过

373

帖子

5406

声望

5

粉丝

关注

最近发布

热门推荐

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

算力租赁新趋势揭秘：如何高效利用云计算资源赋能未来 0回复

还拿不到Manus邀请码？试试这几款开箱即用的computer use智能体，附教程 0回复

上一篇： AI Infra的起飞前夜，跟两位创业者聊了两小时，从DeepSeek的中国朋友圈，到AI基建演进的价值铁律

下一篇：刚刚，智谱发布秒杀DeepSeekR1的“沉思”，基座模型Z1吐字速度高达200token/s，价格只有R1的1/30，下月开源

社区精华内容

目录

核心架构：Thinker-Talker，从思考到交流

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载