虚拟歌手背后看不见的手 AI已掌控未来音乐？-51CTO.COM

19世纪以前，当人们聚集在一起时，总是会用即时的最原始的歌声和乐器，讲述生活的故事，传递情感和思想。那时的音乐，是流动的，也是瞬间的。

1857年之后,录音的出现，让人们拥有了随时随地欣赏优秀的音乐作品的条件，在这种形式下，音乐开始变成设定好的故事，听众成了被动的接受者。

斗转星移。

时间来到2023，人工智能正在改变音乐的形态——通过便捷的操作，普通大众可以轻松生产出音乐作品。从“play guitar”到“play AI”，音乐创作正变得触手可及。

资深分析师Mark Mulligan观察音乐产业数十载，不久前，他在博客中写道：“音乐产业来到了一个临界点，AI将会改变音乐的未来，如今瓶中的精灵已经飞向了广阔的天空。”

合成的“歌唱历史”

作为歌迷的你可能不会想到，今年最火的音乐中，有一首竟然是孙燕姿演唱的“发如雪”。或者准确的说，是AI孙燕姿。

突然走红的另类“发如雪”，掀起了一阵网络创作热潮，带动AI歌手概念出圈，也让更多人感受到人工智能在音乐领域的巨大潜力。

不过，说到AI歌手，很多人第一反应应该是当红虚拟歌姬——初音未来、洛天依。在歌迷感慨于这些无论是声音和容貌都接近完美的AI歌手时，绝大多数人可能并不知道，单纯用计算机合成音乐这件事，早在上世纪五十年代就已经出现了。根据不完全统计，歌声合成的历史沿革已经跨越了70年。

1951年	程序员Christopher Strachey使用艾伦·图灵的大型计算机制作了历史上第一首电脑合成的音乐。
1961年	计算机音乐大师Max Mathews与科学家John Kelly等人使用IBM 704计算机完成了第一首由电脑模拟人声演唱的歌曲《Daisy Bell》。
1982年	为了统一标准，并建立起一种连接电子乐器和计算机的规则，国际乐器制造者协会的十几家厂商制定了通用合成器接口方案，更名为“音乐设备数字接口(MIDI)”。
2004年	日本雅马哈株式会社（YAMAHA）授权ZERO-G发售了VOCALOID首个声库。
2007年	VOCALOID 2发布，日本CRYPTON FUTURE MEDIA公司依托该技术发布了初音未来。初音未来首次开启了声库+虚拟形象的软件销售模式，其意外爆火也激活了以UGC为核心的VOCALOID创作文化。
2009年	名古屋工业大学开发的Sinsy（Singing Voice Synthesis System）语音合成系统发布，使用了隐马尔科夫模型（HMM），可调教性别参数、颤音强度及变调等参数。
2012年	上海禾念公布洛天依等角色，并宣布第一款中文歌声库将以洛天依开发。
2013年	CeVIO Creative Studio发布，基于HTS引擎（语音）/Sinsy引擎（歌唱）制作，输入音符、文字后既能唱歌，还能模拟人声说话。
2018年	华侃如发售Synthesizer V editor，结合人工神经网络和采样拼接合成的混合算法，使用底层语音模型（LLSM）技术实现了高还原度下对声色的灵活修改。
2019年	时域科技推出了ACE虚拟歌姬，最开始是一款音游。
2020年	• Synthesizer V Studio发布，12月Synthesizer V AI发布，使用基于深度神经网络的歌声合成技术，生成的歌声宛如人类歌手。 • X Studio发布，由小冰公司开发，软件为音乐创作者提供具有不同音色和唱腔的虚拟歌手，它们能迅速读懂乐谱并演唱出来。
2021年	• ACE开始支持AI歌声合成，并完成数百万美元Pre-A轮融资。 • CeVIO AI发行，继承了前身CeVIO Creative Studio结合歌声合成与语音合成的特征，并采用了深度神经网络等AI技术。 • 浙江大学发布了关于diffsinger的论文。diffsinger因其开源免费和高音质的特点迅速吸引了一批忠实用户。
2022年	• VoiSona首个正式版发布，VoiSona是CeVIO AI的“姊妹版”，由同一家公司开发，分开运营。 • ACE发布电脑端ACE Studio预览视频，并开启内测申请。 • ACE官宣为“洛天依ACE AI”声库提供技术支持，同年为言和、乐正绫提供AI声库。
2023年	• 小冰与网易云音乐合作发布了新编辑器“网易云音乐·X Studio”，提供了13名虚拟歌手。 • ACE Studio在直播问答中称新的歌声合成模型和代码重构正在稳步推进中，商业化时机根据工作进度而定。

在歌声合成漫长而隐秘的“进化”中，AI歌手的出现可谓划时代的产品，而要透析这段成长历史，有两个关键的信息点是必须了解的：

第一，AI歌手涉及的技术主要有两大类：歌声合成（Singing Voice Synthesis，SVS）和歌声转换（Singing Voice Conversion，SVC），而主要的发展是在歌声合成即SVS上。第二，总的来说，歌声合成可以分为拼接合成和AI合成两大方向，从发展过程看，是由前者逐渐向后者演进。

被公众熟知的明星虚拟歌姬——初音未来和洛天依，在技术上使用的正是拼接合成的方式，并在最初采用的是VOCALOID引擎（软件）。这类拼接合成引擎依靠手动调校，可调节的参数和调节的精准度，会直接影响创作效果——完全手动调校对于新手来说入门难，制作需要花费更多精力。

UP主你ADC我辅助表示，由于拼接合成是通过对不同发音的录入、编排和拼接来合成歌声，具备音域宽、编辑自由度高的优点，但连贯度会有所欠缺，“毕竟本质上就是一段段的音频素材”。

从拼接合成到AI合成的转变过程，可以说是一种技术的革新。与传统的拼接合成不同，AI合成是使用人工智能技术深度学习人声样本的唱法、发音、声线、风格等，推测出本人怎么唱进而模仿。

2009年，名古屋工业大学开发的Sinsy就使用了隐马尔科夫模型，而后CeVIO在Sinsy基础上开发出输入音符、文字就能唱歌说话的功能——这是最早使用非拼接方式的歌声合成引擎。到了SynthesizerV发布时，技术上已经开始介入人工神经网络（模仿人类大脑活动的机器深度学习模式），也就是说其在拼接合成的基础上结合了人工智能技术，融合了两者的优势。

微软小冰X studio也是早期AI引擎之一，免费使用但目前落后于其他引擎。相比之下，ACE作为完全的后起之秀，性能效果与Synthesizer V同属第一梯队，去年5月，洛天依也宣布与ACE合作推出了ACE引擎声库，早期ACE还提供了音乐创作社区。

AI合成引擎通过人工智能计算自动合成的声音，往往不需要大改就能使用（也可以直接在计算结果的基础上修改参数）——这一方面降低了制作成本；另一方面生成的声音非常自然、流畅、拟真，操作门槛低。

不过UP主@HarryKamski介绍说，AI合成的缺点是音域会受限，而且因为合成方式非显性，会有“自己的想法”，很多时候不能完全遵照调校师的想法。

“AI孙燕姿”背后的歌声转换

就在SVS歌声合成在商业领域大行其道的同时，各种音乐社区内，隐匿生长的开源幼苗也在茁壮成长。并因几个月前突然在网络爆火的“AI孙燕姿”，将SVC（歌声转换）猛地推向了主流的道路。

“AI孙燕姿”与商用广泛的SVS技术路线不同，采用的是歌声转换即SVC技术。两者的技术原理和用户生态都是不同的，谈及两者的区别时，UP主电浆果茶画了一张图。

UP主电浆果茶解释说，不管用SVS AI还是SVC生成音频，首先都需要采集声音做一个AI模型，采集的声音质量越高，模型输出的音质也就越高。有了模型之后，SVS只需要输入文本和音符就能生成一个新的音频，没有其他干扰的话，这个音频的音质是不会变的。SVC模型生成内容则需要先输入一个既有音频，如果你往一个很好的模型输入一个糟糕的音频，那么输出来的音频也是糟糕的。

也就是说，“AI孙燕姿”这类AI歌手，本质可以理解为AI加持的歌声变声器，它是将源音频的音色、声线替换为目标歌手的，保留原来的歌词、唱法、音调等，因此最后的呈现效果，很大程度上取决于源音频的演唱水平。

相较SVS技术，SVC出现的时间并不久。早期日本发布过一款语音合成软件Voiceroid，可以将输入的文本转换成语音朗读，当时主要应用于一些游戏解说、美食教程、伴读等。但对于实时需求来说，输入文字并不方便，于是后来就出现了AI变声器，比如，“塞壬VOICE”——这些当时本质上还是商业的闭源软件。可以说，直到以VITS（语音合成模型）为基础的这类开源、免费软件出现，SVC才真正在社区中兴起。

至于大火的“AI孙燕姿”诞生经历，这里要提到一个人，国内歌声合成爱好者Rcell，他基于VITS、SoftVC等项目开发了AI语音转换软件so-vits-svc，“AI孙燕姿”等AI歌手正是基于此制作的。由于so-vits-svc开源免费，可以在本地训练，也因此被大家广泛的使用——so-vits-svc之外，SVC软件还有RVC、DiffSVC等。

除了“AI孙燕姿”的发如雪，SVC技术的兴起给个人的音乐兴趣带来了更多的可能性。

今年3月，UP主你ADC我辅助在B站上传了一首已故歌手本兮“演唱”的《反方向的钟》，勾起无数90后的回忆杀，网友们纷纷在视频下感慨追忆，留言7000多条。

UP主你ADC我辅助表示，“现在很多网友用SVC来训练各种人物的声库，比如动漫角色、主播、明星，甚至身边的亲朋好友，只要你想，任何人的声音都可以被训练，并不限于明星。由于SVC声库训练起来不算复杂，在二创中非常受欢迎。”

也正是如此，“AI孙燕姿”爆火后，“AI王菲”、“AI周杰伦”、“AI陈奕迅”纷纷上线，有人追求歌曲的适配，有人纪念去世歌手，也有人剑走偏锋，让郭德纲唱起了热血日漫OP。

每一次有新的人工智能技术出来，都会引起一番AI取代人的问题的讨论。有人认为，AI歌手的本质其实更像钢琴吉他一样，是一种乐器，无论是将其打造成虚拟偶像，还是生产力工具，它都不能脱离于人而存在。当然那些演唱能力很差的歌手，或许该有一些危机感。

AI歌手的商业版图

不管AI歌手的本质是什么，任何一种新产品能否生存的核心都不仅是技术，更在于能否建立完善的商业模式。

商业模式上，SVS打造的歌手主要是和IP产业、偶像产业结合，比如广告代言、卖周边、直播、开演唱会、发行歌曲等。但虚拟偶像产业主要靠粉丝经济，圈子小众，想吃肉的多，可想而知这门生意并不好做。

最火的初音未来和洛天依都属于最早吃到螃蟹的，一个是第一个在世界范围爆火；另一个则是第一个打开中国市场的，因此吸引了大量粉丝。不过，与表面的火爆背后，AI歌手的成功其实凤毛麟角，即使在二次元文化最盛行的日本，真正大获成功的大概也只有以初音未来为代表的那几个。

除了偶像化的商业模式，另一个营收方向是声库销售。UP主你ADC我辅助表示，官方发布的SVS声库绝大多数都是经过配音员本人授权的，像SV AI、CeVIO AI等软件的AI声库，多采用买断制，以一个价格购买后就能终身使用其AI合成服务。

此外，电浆果茶表示，现在相关公司也在尝试拓宽市场边界，比如跟生产力工具结合。上个月，日本AI社宣布将与Unity合作推出A.I.VOICE语音合成声库，和基于A.I.VOICE技术的Unity扩展编辑器，让用户可以在Unity上直接合成语音内容，无需在多个软件切换。

相比之下，SVC的商业路径更窄，虽然也有商业化软件，但在已经有很多开源免费SVC的情况下，如何突出商业SVC的优势，是一个主要问题。同时由于制作门槛低，SVC频道更加混乱，充斥大量低质量作品，也引起了一些圈内用户的不满。另一方面由于音频的采集未经过版权方同意，SVC的AI歌手对原歌手以及词曲者都可能构成侵权。

“灰色地带”的阴影

版权争议是AI歌手面临的一个主要现实问题。

对于歌手本人和唱片公司来说，面对不间断输出的海量自制歌曲，进行授权或起诉索赔并不可行，最优的解决方案或许是将重点放在输入侧——让AI工具从预先授权的数据集中学习。这样唱片公司和出版商也有机会从中拓展营收，音乐版权也可能迎来一个新的商业模式。

这样的新商业模式并非空中楼阁。

根据近期报道，谷歌和环球音乐正在就授权AI使用艺人的声音和音乐来创作歌曲进行谈判。知情人士称，双方的讨论是围绕AI技术在音乐版权方面达成合作伙伴关系，希望开发一种工具，让广大粉丝可以合法地创作AI歌曲，向版权方付费，歌手们可以自由选择是否加入。目前磋商还处于早期阶段，暂时不会推出产品。此外据透露，华纳音乐也在与谷歌谈判中。

版权之外，声音合成还存在其他法律隐患。

声音具有强烈的人身属性，更是歌手赖以生存的根本。“声音保护”也被写入《民法典》，根据《民法典》第1023条相关规定：“对姓名等的许可使用，参照适用肖像许可使用的有关规定。对自然人声音的保护，参照适用肖像权保护的有关规定。”那么未经本人允许，通过SVC技术伪造声音，无疑是对其人身权益的损害。

UP主痕继痕迹表示，“技术也可能会被用于不好的用途，比如某流量演员自身台词功底很弱，通过换声把配音转变成自己的，或者以后某歌手的歌都不是自己唱的，而是别人唱完变声成自己的。”此外还可能伪造虚假的录音、言论，进行诈骗或者造谣诽谤他人——今年已有多起使用AI合成语音电诈的案例曝光。

法律和商业模式都是AI歌手发展过程中要过的关，但这并不影响其成为人工智能技术的一次重大应用。AI歌手正在不断拓展音乐创作的边界，为音乐文化注入无限的可能性。