鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

昨天，国产大模型接管了人类的手机、电脑！原创

发布于 2024-10-28 15:02

浏览

0收藏

整理｜言征

国产多模态、智能体版本的GPT-4o终于来了！

10月25日，国内大模型独角兽智谱连发两个大招，小编当时差点愣住，不愧国产大模型之光！

废话不多说，直接上干货。这次智谱推出了一个模型GLM-4-Voice ，一款应用AutoGLM。

昨天，国产大模型接管了人类的手机、电脑！-AI.x社区图片

开源地址：https://github.com/THUDM/GLM-4-Voice

GLM-4-Voice 是智谱 AI 推出的端到端语音模型。GLM-4-Voice 能够直接理解和生成中英文语音，进行实时语音对话，并且能够遵循用户的指令要求改变语音的情感、语调、语速、方言等属性。

昨天，国产大模型接管了人类的手机、电脑！-AI.x社区图片

模型架构

GLM-4-Voice 由三个部分组成：

GLM-4-Voice-Tokenizer: 通过在 Whisper 的 Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练，将连续的语音输入转化为离散的 token。每秒音频平均只需要用 12.5 个离散 token 表示。

GLM-4-Voice-Decoder: 基于 CosyVoice 的 Flow Matching 模型结构训练的支持流式推理的语音解码器，将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个语音 token 即可开始生成，降低端到端对话延迟。

GLM-4-Voice-9B: 在 GLM-4-9B 的基础上进行语音模态的预训练和对齐，从而能够理解和生成离散化的语音 token。

预训练方面，为了攻克模型在语音模态下的智商和合成表现力两个难关，我们将 Speech2Speech 任务解耦合为“根据用户音频做出文本回复”和“根据文本回复和用户语音合成回复语音”两个任务，并设计两种预训练目标，分别基于文本预训练数据和无监督音频数据合成语音-文本交错数据以适配这两种任务形式。

GLM-4-Voice-9B 在 GLM-4-9B 的基座模型基础之上，经过了数百万小时音频和数千亿 token 的音频文本交错数据预训练，拥有很强的音频理解和建模能力。

昨天，国产大模型接管了人类的手机、电脑！-AI.x社区 GLM-4-Voice 预训练数据构造

对齐方面，为了支持高质量的语音对话，我们设计了一套流式思考架构：根据用户语音，GLM-4-Voice 可以流式交替输出文本和语音两个模态的内容，其中语音模态以文本作为参照保证回复内容的高质量，并根据用户的语音指令要求做出相应的声音变化，在最大程度保留语言模型智商的情况下仍然具有端到端建模的能力，同时具备低延迟性，最低只需要输出 20 个 token 便可以合成语音。

电脑、手机听从指令帮你操作AutoGLM 同步上线

在情感语音通话全面开放的同时，智谱也宣布了另一项前沿成果：AutoGLM。

昨天，国产大模型接管了人类的手机、电脑！-AI.x社区一句话让AutoGLM点喜茶视频来源：数字生命卡兹克

让 AI 像人类一样操作电脑和手机，是近期领域内的热点话题。以往这是一项颇具挑战性的任务，因为在此类场景下，AI 需要根据用户的要求拆解指令背后蕴含的步骤，感知环境、规划任务、执行动作，逐步完成任务。某种程度上说，这突破了大模型的常规能力边界，更加注重其「工具」属性。

很多大模型公司都在探索这一方向，锚定其为「下一个 AI 前沿」。基于大语言模型（GLM 系列模型）、多模态模型和工具使用（CogAgent 模型）等方面的探索，智谱已经在由自主智能体（Agent）驱动的人机交互新范式方面取得了一些阶段性成果。

在智谱最新发布的 AutoGLM App 中，用户可以凭借一句指令让 AI 自动完成许多任务，比如阅读网页信息、电商产品购买、点外卖、订酒店、评论和点赞微信朋友圈等。目前，AutoGLM 已开启内测（暂时仅支持 Android 系统）。

昨天，国产大模型接管了人类的手机、电脑！-AI.x社区

在 AutoGLM App 发布之前，AutoGLM-Web 已经通过「智谱清言」插件对外开放使用。这是一个能模拟用户访问网页、点击网页的浏览器助手，可以根据用户指令在私域网站上完成高级检索并总结信息、模拟用户看网页的过程进行批量、快速的浏览并总结多个网页，结合历史邮件信息回复邮件。

本文转载自51CTO技术栈，作者：言征

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

赞

收藏

回复

举报

回复

相关推荐

国产RISC-V狂奔：端侧能跑大模型，AI计算成重头戏

level • 3060浏览 • 0回复
超越GPT-4，斯坦福团队手机可跑的大模型火了，一夜下载量超2k

轻薄滴假象 • 1831浏览 • 0回复
国产开源Sora上新：全面支持国产AI算力，可用ReVideo视频编辑，北大-兔展团队出品

Crystalcxt • 1497浏览 • 0回复
手机流畅运行470亿大模型：上交大提出PowerInfer-2引领智能手机大模型推理新纪元

AI论文解读 • 2681浏览 • 0回复
大模型爱好者的福音，有了它个人电脑也可以运行大模型了

AI探索时代 • 1908浏览 • 0回复
人类和大模型的语言发展和使用过程是否不同？Psychomatics框架对人工智能与人类认知展开对比研究

xuxiangda • 1161浏览 • 0回复
微软开源Phi-3.5：支持手机、平板电脑，性能超Llama 3.1

Aceryt • 828浏览 • 0回复
Llama 3.2：AI视觉革新，手机也能跑大模型

sbf_2000 • 1257浏览 • 0回复
AI和AR的融合，是否将取代手机？充满AI的APP会颠覆人类的社交方式吗？

51CTO技术栈 • 681浏览 • 0回复
【智汇金秋创造季】智汇成海，致敬开发者的“超级码力”！

AI.x社区官方账号 • 32.8w浏览 • 148回复
超级Agent：像人一样操控电脑！

PaperAgent • 863浏览 • 0回复
编程能力超o1，像人类一样操作电脑，开启Agent新时代！

51CTO技术栈 • 864浏览 • 0回复
DeepSeek首发国产类o1模型！人人可以免费使用！

51CTO技术栈 • 1876浏览 • 0回复
大模型技术全面解析，从大模型的概念，技术，应用和挑战多个方面介绍大模型

AI探索时代 • 7975浏览 • 0回复
智谱大秀肌肉！CogAgent 2.0让大模型接管一切！GLM-PC首创隐形屏幕，人类监工AI不远了

51CTO技术栈 • 717浏览 • 0回复
网友点评：这不Siri干的活吗？反驳：不要低估这新功能，接管人类的智能体AI已在路上

51CTO技术栈 • 394浏览 • 0回复
突发，美国开始拉黑国产大模型公司！智谱官方回应：手握全链路大模型核心技术，无实质影响！

51CTO技术栈 • 574浏览 • 0回复
2025年大模型与Transformer架构：技术前沿与未来趋势报告

欧米伽未来研究所 • 2624浏览 • 0回复
把 DeepSeek 部署在你的电脑上，保姆级教程，建议收藏！

玄姐聊AGI • 2761浏览 • 0回复
OpenAI将开源 o3-mini，或适合手机大模型

Aceryt • 222浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

热门推荐

国家队出手！DeepSeek上线国家超算互联网平台，免注册开箱即用！ 0回复

DeepSeek爆火！我们整理了80余页宝典，带你从入门到精通！文末免费领取 0回复

DeepSeek R1 Vs OpenAI o1！全球顶级推理模型训练技术对比大解密！ 0回复

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建议收藏！ 0回复

上一篇：黄仁勋和印度首富安巴尼对话：CPU摩尔定律已停滞，发现第二个缩放定律，不外包数据做AI

下一篇：谷歌放大招开源SynthID Text，火眼金睛鉴别AI，还能为AI生成的多媒体内容添加隐形水印！

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载