颠覆播客行业 AI技术已能复制任何人类声音-颠覆科技

播客行业正朝着更加轻松自然、非正式性的音频叙事方向发展。这种较少使用严肃用语的传播形式，也成功拉近了主播与听众间的沟通距离。

换句话说，主播们尽可能使用口语表达，降低表述内容的理解与反应难度。也正是凭借着这种通俗易懂优势，音频叙事变得越来越流行，相关调查数据也证明了这一发展趋势。

根据Statista公布的统计结果，2018年全美播客收听者已经达到7500万;预计到2024年，月收听用户将增长至1.64亿。由此估计，2019年至2023年之间播客听众的复合年增长率将高达17%。

2020年，四分之三的美国民众明确知晓播客为何物，其中超过半数(55%)的受访者已经开始收听播客。而作为全球收入最高的播客，乔·罗根(Joe Rogan)的《乔·罗根体验》(The Joe Rogan Experience)节目在2019年获得高达5000万美元销售额，月均下载近2亿次。

目前，播客行业面对的主要问题在于如何在维持内容独立性的同时，获取支持行业快速增长的必要资源。终于进入正题——人工智能等突破性技术带来的语音克隆功能，也许能够带来重要的解决手段，或者至少是部分解决方案。

以尼克松(Nixon)项目为例，其以令人信服的结果证明AI技术完全能够重现出与人类对象没有任何区别的语音效果。麻省理工学院的一组研究人员、新闻工作者及艺术家，同语音克隆厂商Respeecher及VDR公司的Canny AI开展合作，共同创造出模拟得出的首次登月通话记录——只是这一次，宇航员阿姆斯特朗与奥德林未能完成任务，并被困在了月球上。

他们甚至还“伪造”了时任美国总统的尼克松的视频，向全世界宣告此次登月之旅的悲惨失败。

当播客遇上AI

计算机化语音的主要挑战，在于如何复制人类表达以及其中的种种细微差别，同时尽力避免机器音的存在。而在识别并重现细微声音变化元素方面，以人工智能为基础的语音转换技术为我们指明了一条可行的发展道路。

苹果Sir、Amazon Alexa、微软Cortana以及Google Assistant等语音助手仍在使用文本到语音转换技术。虽然这种技术的实用性确实很高，但却很难带来不同的语音类型。以Siri为例，要想实现老年男性的语音效果，除了需要引入庞大的预录制文件之外，Siri还无法处理该音频文件中未能包含的单词。在这方面，AI支持下的语音到语音转换就成了新的突破口。

如何将AI语音克隆应用于播客领域?

人工智能不仅能够实现语音克隆，还能够在任意播客节目中完美复制一切语音效果。其中使用的是一项名为“智能鸡尾酒”的经典数字信号处理算法，外加专用的深度生成建模技术——允许内容制作者使用最适合的声音解决以往难以实现的录制效果(例如播报员有其他工作，或者需要重现某位已经去世的配音演员的音色等)。

下面来看几种语音克隆技术在播客制作领域的可行用例：

1. 让名人加入您的节目

我们很难请到知名演员、作家、运动员等参与您的节目，但如果使用人工智能技术复制他们的声音，就可以既轻松实现同样的效果、又不必劳烦他们亲自到录音棚跑一趟。以此为基础，听众们能够听到自己喜爱的声音，节目制作方与名人们也省去了劳顿之苦。

2. 重现旧日之声

语音克隆能够让已经去世的演员们再次献声。想不想让肯尼迪总统为历史播客配上旁白?没有问题，语音转换技术能够精确重现他的声音——是的，不只是“相似”，而是真正的完美还原。

3. 使用童声朗读，又不用强迫孩子们长时间工作

孩子们讲话总是非常有趣，这种趣味性不一定体现在内容上，而更多在于他们的语音、语气和语调当中。但与孩子们一同工作可是相当费心费力。通过语音合成技术，我们可以让专业演员念出孩子的台词，再将其转换为童声效果，大大简化节目制作流程。

4. 快速推进节目制作进度，保证播客及时播出

AI可以瞬间重现人声，而且短时间内就可以提供高质量的目标语音成果。

总结

2017年，全球播客市场带来的广告收入高达2.2亿美元，且每年都在翻番。而用户参与度的提升，将成为吸引潜在广告客户的核心动力。更重要的是，播客中的广告其实效果极佳，调查显示此类广告拥有近90%的播放完成率。

此外，广告客户甚至愿意为某些播客节目支付高达30美元的CPM(广告每千次展示成本)。单说这个数字大家可能没有概念，但Facebook上的每千次广告展示成本约为6美元。

网络电视正在缓慢但坚定地取代着有线电视，播客与传统广播之间的关系似乎也是这样。而单纯从传统广播类广告出发，播客行业至少还能够吸引到额外约200亿美元收入。而正如我们在文章开头提到，播客节目能够吸引到大量原本根本不听广播的群体，因此其利润增长期望可谓一片光明。

这些调查数字表明，播客业务将长久存在，同时也迫切需要音频内容制作者们找到效率更高、效果更好的节目产出方法。

也许AI语音克隆技术，正是帮助播客行业在内容独立性与节目制作资源需求间找到完美平衡的终极解决方案。