互联网60%的句子由AI生成？谷歌放大招开源SynthID Text，火眼金睛鉴别AI，还能为AI生成的多媒体内容添加隐形水印！-51CTO.COM

出品 | 51CTO技术栈（微信号：blog51cto）

谷歌正在推出其 SynthID Text 技术，让开发者能够对生成式 AI 模型生成的文本进行水印token和检测，并且该技术现在已经全面开放。

图片

SynthID Text 可以通过 AI 平台 Hugging Face 和谷歌更新后的负责任生成式 AI 工具包下载。

https://huggingface.co/spaces/google/synthid-text

谷歌的这项成果已经被nature接收了！在这篇论文中，谷歌详细揭秘了水印的工作原理。

图片

https://www.nature.com/articles/s41586-024-08025-4

那么，SynthID Text 究竟是如何工作的呢？

一、SynthID的AI查重：哪个“token”最可能出自AI之手

假设给出一个类似“你最喜欢的水果是什么？”的问题，文本生成模型会预测哪个“token”最有可能跟在另一个token之后——逐个token生成。token可以是单个字符或单词，它们是生成模型用来处理信息的基本构件。

图片

以 "我最喜欢的热带水果是____"为例。LLM 可能会从 "芒果"、"荔枝"、"木瓜 "或 "榴莲 "等标记词开始完成句子，并为每个标记词分配一个概率分数。当有一系列不同的标记可供选择时，SynthID 可以在不影响输出质量、准确性和创造性的情况下，调整每个预测标记的概率分数。

谷歌表示，SynthID Text 通过“调节生成token的可能性”在这种token分布中插入了额外信息。

图片

上图：LLM 文本生成通常是通过从左到右生成文本的方式，反复从 LLM 分布中进行采样。下图：生成式水印方案通常由三个组成部分构成，如蓝色框中所示：随机种子生成器、采样算法和评分函数。这些组件可以用于提供一种文本生成方法和水印检测方法。在 SynthID-Text 生成式水印方案中，我们使用的是锦标赛采样算法。

“模型的词汇选择的最终分数模式与调整后的概率分数结合，被视为水印，”该公司在博客文章中写道。“此分数模式与水印和非水印文本的预期分数模式进行比较，从而帮助 SynthID 检测文本是否由 AI 工具生成，或可能来自其他来源。”

谷歌声称，自今年春季以来，SynthID Text 已与其 Gemini 模型集成，并且不会影响文本生成的质量、准确性或速度，即使在文本被裁剪、改写或修改后依然有效。

这种技术可用于少至三句话的内容。随着文本长度的增加，SynthID 的稳健性和准确性也会提高。

二、SynthID的多模态进展：音频、视频也有水印

谷歌表示，使用谷歌模型生成的AI音频、视频，也已经“自带水印”。

1.音频

在音频方面，SynthID 会把 Lyria 模型生成的音频加上水印。

SynthID的技术是，先将音频波（声音的一维表现形式）转换为频谱图。

计算出频谱图后，SynthID会将数字水印加入其中。最后，将频谱图转换回波形。在这一转换步骤中，SynthID 利用音频特性确保人耳听不到水印，从而不会影响听觉体验。水印对许多常见的修改（如添加噪音、MP3 压缩或加快和减慢音轨）都很稳健。

SynthID 还能扫描音轨，检测不同点是否存在水印，以帮助确定其中的部分是否由 Lyria 生成。

2.视频

SynthID 将人眼无法察觉的数字水印直接添加到AI图像和视频中。

而且，即使经过各种技术操作，比如裁剪、添加滤镜、改变颜色、改变帧频和使用各种有损压缩等，也无法摆脱这个水印。

图片

三、写在最后

不过，谷歌承认其水印方法存在局限性。

例如，SynthID Text 在处理短文本、改写或从其他语言翻译的文本时表现不佳，或者在处理回答事实性问题时效果较差。“在回答事实性提示时，调整token分布的机会较少，且不会影响事实准确性。”这包括像“法国的首都是哪里？”之类的问题，或者像“背诵威廉·华兹华斯的诗”这样几乎没有变化空间的请求，此类输出很难被识别。

谷歌并不是唯一一家致力于 AI 文本水印技术的公司。OpenAI 多年来一直在研究水印方法，但由于技术和商业方面的考虑，推迟了发布。

如果文本水印技术被广泛采用，它可以帮助应对日益流行但常常错误token的“AI 检测器”问题，这些检测器会错误地将以较为通用的语气撰写的文章或论文token为 AI 生成的。然而，问题在于，这些技术是否会被广泛采用，以及是否有某一组织的标准或技术会胜出。

未来可能会有法律机制迫使开发者采用这些技术。中国已经引入了对 AI 生成内容强制加水印的规定，加利福尼亚州也正计划采取类似措施。

形势十分紧迫。根据欧盟执法机构的一份报告，到 2026 年，90% 的在线内容可能会是由 AI 合成生成的，这将带来关于虚假信息、宣传、欺诈和欺骗的新执法挑战。据 AWS 研究显示，由于 AI 翻译工具的广泛使用，当前网络上约 60% 的句子可能已经是 AI 生成的。

参考链接：

1.https://techcrunch.com/2024/10/23/google-releases-tech-to-watermark-ai-generated-text/

2.https://deepmind.google/technologies/synthid/

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/