OpenAI 推出语音引擎，只需15秒样本，即能重建任何人的声音

pangguiyu

发布于 2024-4-3 08:32

浏览

0收藏

OpenAI 又带来了一项超酷的进展！周五推出了一项名为 Voice Engine 的语音引擎，仅凭一段15秒的声音样本，便能够精准模仿出那个人的声音。

OpenAI 推出语音引擎，只需15秒样本，即能重建任何人的声音-AI.x社区

Voice Engine 的独特之处在于，它能通过简单的文本输入和短短音频样本，创造出非常接近原始说话者的自然声音。这意味着无论你让它读什么语言的文字，都能以那个人独有的声音风格朗读，效果既逼真又充满感情。

总而言之，OpenAI 通过这项新技术展示了人工智能复制人声的惊人可能性，接下来让我们一起看下吧～

Voice Engine 两年前已开始研发

事实上，OpenAI 早在 2022 年末便启动了 Voice Engine 的开发，并已利用此技术为其文本到语音 API、ChatGPT Voice 以及朗读功能装配了预设声音。

在技术成功开发后，OpenAI 并未立即向市场全面推广，而是选择与一小群早期测试者“小心翼翼”地合作，共同探索其应用可能性和潜在风险。

在与 TechCrunch 的采访中，OpenAI 产品团队成员 Jeff Harris 透露，该模型是在“已获授权和公开可用数据的结合”上进行训练的。该技术将仅限于大约 10 名开发者使用，获准访问的组织包括教育技术企业 Age of Learning、视觉叙事平台 HeyGen、前沿健康软件制造商 Dimagi、AI 通信应用开发者 Livox 以及医疗健康系统 Lifespan。

OpenAI在官网展示出了一些已经开始应用的例子：

1. 生成更自然、富有情感的声音

通过自然、富有情感的声音，比预设的声音更能代表更广泛的说话者，为非读者和儿童提供阅读帮助，致力于儿童学业的教育技术公司Age of Learning使用这其生成预先编写好的配音内容。此外，语音引擎和GPT-4创建实时、个性化的响应来与学生互动。

原预设录音：

1
夕小瑶科技说
15秒

生成的自然语音：

2
夕小瑶科技说
16秒

2. 翻译视频和播客等内容

为了让创作者和企业以其独有的声音接触到全球更多的听众，HeyGen，— 一家专注于AI视觉叙事的平台，成为了此技术的早期采用者。他们为从产品营销到销售展示的广泛内容制作定制化、仿真的头像。借助Voice Engine技术将视频内容翻译成多种语言，以此拓宽其全球受众的范围。这项技术的一大特色是在翻译过程中能够保留演讲者原有的口音特征，例如，使用一位法国演讲者的声音样本进行英语翻译时，生成的语音将保留有法国口音，为翻译增添了更多的真实感和个性化色彩。

原录音：

3
夕小瑶科技说
16秒

翻译的语音：

4
夕小瑶科技说
21秒

3. 改善偏远地区的基本服务

OpenAI 强调自身的存在是希望为全球社区带来福祉，因此正在和当地合力为社区卫生工作提供各类基础服务，例如向哺乳期母亲提供专业咨询。为了促进这些工作者技能的提升，采用Voice Engine擎和GPT-4技术，以工作者的母语提供互动式反馈。

原录音：

5
夕小瑶科技说
15秒

翻译的语音：

6
夕小瑶科技说
41秒

4.支持言语障碍人士提供帮助

为非言语人群提供支持，例如开发针对语言障碍者的治疗应用，以及为有特殊学习需求的人提供教育辅助。Livox是一款采用人工智能的替代及增强通信(AAC)应用，能够赋能残障人士进行沟通。通过利用先进的语音引擎，Livox能为用户提供独一无二、非机械化的声音，涵盖多种语言。这使得用户能够选择最能体现其个性的声音，并且对于那些使用多种语言的用户，保持在各种语言中声音的一致性。

原录音：

7
夕小瑶科技说
16秒

生成的语音：

8
夕小瑶科技说
14秒

5. 帮助患者恢复他们的声音

针对那些受到突发性或退行性语言障碍影响的人群，OpenAI与Norman Prince 神经科学研究所合作，正在研究AI在临床设置中的应用。他们最近启动了一个试点项目，为那些因癌症或神经病理学问题而遭受语言障碍的患者提供Voice Engine服务。这项技术的一个显著优点是它仅需很短的音频样本即可运作。因此，医生Fatima Mirza、Rohaid Ali和Konstantina Svokos得以使用一位年轻患者之前为学校项目录制的视频音频，成功恢复了她因血管性脑瘤而失去的流畅语言能力。

原录音：