鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

GPT-4o背后可能的语音技术原创

发布于 2024-6-13 13:00

浏览

0收藏

如果我不说明这是一段GPT-4o调戏主持人的视频，你是否会认为电话另一端是真人在对话？

GPT-4o在与人类的对话过程中，不仅能理解人的情绪，还能像人一样说话。

总结来说，GPT-4o具有下列语音能力：

具有丰富的语音风格：语速快一点、语调柔和一点、或者用说唱的风格；
可以理解语音以外的信息：喘气声、叹气声；
可以发出非语言声音：笑声；
可以进行自然而即时的互动，不需要唤醒词。

其实，早在GPT-4o以前，GPT3.5手机版就有语音功能，那么它和新版的GPT-4o有什么区别呢？李宏毅教授对GPT-4o背后的语音技术进行了分析，下面是对其分析内容的总结，后台回复cam获取pdf下载链接。

老版本的ChatGPT是先通过语音识别模型（whisper）将语音转换成文本，然后将文本传送给大模型（ChatGPT），最后通过语音合成模型（TTS）将大模型的输出合成语音。

GPT-4o背后可能的语音技术 -AI.x社区

然而，文本作为语音的某种压缩，在语音转换为文本的过程中，情感信息往往无法被保留，导致后面生成的声音显得单调。

为了解决这个问题，有人在此基础上加入了情感分析模块，将情感信息以上下文的形式发给大模型和语音合成模块。

GPT-4o背后可能的语音技术 -AI.x社区

虽然这在一定程度上解决了情感丢失问题，但情感分析、语音识别、语音合成这三个独立的模块，无疑增加了推理负担，这也是为什么老版本会思考片刻才会做出回应的原因，“反应迟钝”在多人对话中显得很不自然。

而GPT-4o是一个端到端的语音模型。

GPT-4o背后可能的语音技术 -AI.x社区

文本语言模型输入、输出都是文本，处理文本时，先要将文本转换成tokens，然后将token ids转换成词嵌入输入到Transformer，最后将Transformer输出的token ids解码成token。

GPT-4o背后可能的语音技术 -AI.x社区

GPT-4o输入、输出都是语音，声波是一种模拟信号，别说是大模型，就算是计算机也没办法直接处理模拟信号，所以很多音频处理软件需要先通过声卡将模拟信号转换成数字信号。

GPT-4o背后可能的语音技术 -AI.x社区

语音版语言模型也需要类似的编解码器，它不仅要将连续的语音转换成离散的tokens，还要将其压缩到隐空间，但文字是人造的，语音是自然生成的，所以没办法像NLP那样构造一个词表，这个过程需要神经音频编解码模型模型来完成。

神经音频编解码模型也并不是什么新玩意，最初用于音频数据压缩传输。下图列出了神经编解码模型的重要时间节点。

GPT-4o背后可能的语音技术 -AI.x社区

编码器负责将语音压缩到离散的隐空间，解码器负责将隐空间信息解压缩成语音信号，这个隐空间类似于词嵌入空间。

GPT-4o背后可能的语音技术 -AI.x社区

将语音信号编码成离散的数字向量后就可以输入到Transformer中了，其它的和大语言模型基本就一样了。

下图是基于神经编解码模型的大语言模型，也就是说GPT-4o很可能就是这个样子的。神经编解码模型是和语言模型一起训练的，而在老版本中，语言模型和三个独立模块都是单独训练的。

GPT-4o背后可能的语音技术 -AI.x社区

和基于文本的大模型一样，基于语音的大模型也需要经过预训练和微调过程。

GPT-4o背后可能的语音技术 -AI.x社区

但鉴于文本资料要比语音资料丰富，所以可能会用文本语言模型的参数去初始化语音版语言模型。

GPT-4o背后可能的语音技术 -AI.x社区

本文转载自公众号人工智能大讲堂

原文链接：https://mp.weixin.qq.com/s/kfV4T0lTNiBFyl3EAEM8qw

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

赞

收藏

回复

举报

回复

相关推荐

OpenAI震撼推出GPT-4o：开启全球免费AI服务的新篇章

xuxiangda • 3873浏览 • 0回复
OpenAI颠覆世界：GPT-4o完全免费，实时语音视频交互震撼全场，直接进入科幻时代

轻薄滴假象 • 2665浏览 • 0回复
GPT-4o：实现跨越文本与视觉的智能交互

51CTO内容精选 • 3529浏览 • 0回复
Sam Altman：GPT-4o幕后揭秘，GPT-5会很特别

Aceryt • 2251浏览 • 0回复
曝斯嘉丽曾拒绝为ChatGPT配音：GPT-4o语音上线前夕，这款最像“Her”的语音却下架了！

51CTO技术栈 • 2630浏览 • 0回复
GPT-4o 的数学又双叕进步了？来 MathBench 看看新版 GPT-4o 到底强在哪！

恋恋青鸟 • 2830浏览 • 0回复
GPT-4o做Code Review可行吗？

51CTO技术栈 • 2919浏览 • 0回复
天下武功唯快不破，GPT-4o真的牛

ermulong • 1916浏览 • 0回复
现在，所有人都能免费用GPT-4o了！

duhorse • 4114浏览 • 0回复
GPT-4o与SQL：大模型改变自身架构的能力有多强？

51CTO技术栈 • 2005浏览 • 0回复
GPT-4o不香了

Crystalcxt • 2752浏览 • 0回复
终于来了，OpenAI测试GPT-4o高级语音模式！

Aceryt • 1917浏览 • 0回复
GPT-4o模仿人类声音，诡异尖叫引OpenAI研究员恐慌！32页技术报告出炉

duhorse • 2194浏览 • 0回复
开发者终于可以定制自己的GPT-4o了！

51CTO技术栈 • 2037浏览 • 0回复
微软发布Phi-4，最强小模型！参数极小、超GPT-4o

Aceryt • 1569浏览 • 0回复
微软开源最强小模型Phi-4，超GPT-4o、可商用

Aceryt • 1696浏览 • 0回复
视觉文本语音强强联合！南大&腾讯优图发布GPT-4o级别的实时视觉语音交互——VITA1.5

angel • 1810浏览 • 0回复
闲得没事，猜猜GPT-4o如何对图像编码

鲁班模锤1 • 1183浏览 • 0回复
GPT-4o图像生成能力全揭秘：背后竟藏自回归+扩散架构？北大&中山等开源GPT-ImgEval

angel • 297浏览 • 0回复

LV.1

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

1

帖子

18

声望

0

粉丝

关注

最近发布

训练大模型时，显存都哪去了？ 2024-11-19 12:41:34发布
生产环境测试模型的四种方法 2024-11-15 11:22:05发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇： GPT-4o热潮来袭：探索图生文本的奥秘（多模态大模型系列之一）

下一篇： The Annotated Transformer注释加量版，读懂代码就真的懂了Transformer

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载