AI生成的内容到底能不能被有效地识别出来?
让我们来看几个例子:
如果把美国宪法输入到GPTZero这类用来检测文本是否是AI模型生成的工具中,它会告诉你这份文件几乎肯定是由AI生成的。
图片
这一情况引发很多美国网友对于他们国父真实身份的猜疑。
图片
他们都是时空行者,这张图就是石锤!
图片
同样的,对于《圣经》中的内容,检测工具也是持同样的态度。
图片
而国外一个大学教授由于怀疑学生使用AI写论文,他把学生的论文放到了像上文这样的AI检测工具中,用检测工具的结果直接挂掉了大部分学生。
但结果是大部分的学生其实都是自己写的论文,把教授和学校都搞得焦头烂额。
图片
那么,为什么AI检测工具为什么会有这么离谱的检测结果。
国外媒体询问了几位业内专家,以及AI写作检测器GPTZero的创始人,希望能找到其中的原因。
利用语言的困惑度来鉴定AI不太靠谱
不同的AI写作检测器使用略有不同的检测方法,但是原理相似:
用一个AI模型,它经过了大量的文本(包含数百万篇写作例子)训练,并建立了一套推测规则,用来判断这篇写作更是人类写的还是AI生成的。
以GPTZero为例,它的核心是一个神经网络,这个网络是基于「大量、多样的人类写作和AI生成的文本训练的,但是训练数据的重点是英文散文。
然后,这个系统使用像「困惑度」(Perplexity)和「突发性」(Burstiness)这样的特性来评估文本并进行分类。
在机器学习中,困惑度是衡量一个文本偏离AI模型在训练期间学到的内容的程度的指标。
正如AI公司Hugging Face的玛格丽特·米切尔博士说到的,「困惑度是这种语言基于我所看到的内容有多令我惊讶?'的一个函数」。
所以,测量困惑度的原理就是,当AI模型,比如ChatGPT生成文本时,它们自然会选择它们最擅长的内容。
而这些内容就来自它们的训练数据。
输出的内容离训练数据越近,困惑度就越低。
但是人类是更混乱的写作者,或者至少这是理论上的。
但是人类也可以写出低困惑度的文字,特别是当按照法律或某些类型的学术写作的正式风格时。
此外,人类使用的许多短语其实出奇的常见,或者说可预测。
比如说作为人类,猜测在「I'd like a cup of _____.」这句话中的下一个词。
大多数人可能会在这个空格中填上「水」、「咖啡」或「茶」。
一个接受了大量英语文本训练的语言模型也会这样做,因为这些短语在英文写作中经常出现。
所以任何这三个结果的困惑度都会非常低,因为预测相当准确。
现在如果出现一个不太常见的填空答案:「我想要一杯蜘蛛」。
人类和一个训练有素的语言模型都会感到相当惊讶(或者说「困惑」),所以它的困惑度会很高。
如果一篇文本中的语言基于模型的训练并不令人惊讶,那么困惑度就会很低,所以AI检测器更有可能将这段文本分类为AI生成。
这就是为什么「美国宪法」的例子背后的原因。
本质上,宪法的语言在这些模型中已经非常根深蒂固了,以至于AI检测器将其分类为AI生成,从而做出了错误的判断。
GPTZero的创建者Edward Tian说,「《美国宪法》是一个反复输入到许多大型语言模型训练数据中的文本。
因此,这些大型语言模型训练的结果就是能够很容易地生成与宪法和其他常用训练文本相似的文本。
GPTZero预测出可能由大型语言模型生成的文本,因此就出现了这种令人着迷的现象。」
问题在于,人类也完全有可能创作出困惑度很低的内容(例如,如果他们主要使用常见的短语,如「我想要一杯咖啡」)。
这就让AI检测器的结果变得很不靠谱了。
突发性也解决不了问题
GPTZero衡量的文本的另一个属性是「突发性」,指的是某些词或短语在文本中快速连续或「突发」出现的现象。
本质上,突发性评估了文本全程的句子长度和结构的变化性。
人类往往会有比较动态的写作风格,产生的句子长度和结构会是比较多样的。
例如,我们可能会写一句长而复杂的句子,接着是一句短而简单的句子,或者我们可能在一句话中使用一连串的形容词,然后在下一句中一个形容词也不用。
这种变化性是人类创造性和自发性的自然产物。
另一方面,AI生成的文本倾向于更加一致和规整——至少目前为止是这样的。
处于初期阶段的语言模型,生成的句子长度和结构更规则。
这种缺乏变化性可能导致突发性分数低,表明文本可能是AI生成的。
然而,突发性也不是检测AI生成内容的万全之策。
但就像困惑度一样,人类也可能以一种高度结构化、一致的风格写作,导致突发性分数低。
反过来,一个AI模型可能被训练来模仿更人性化的句子长度和结构的变化性,提高其突发性分数。
实际上,随着AI语言模型的改进,研究表明,它们的生成结果越来越像人类的写作。
最终,可能不会存在一个非常简单而且巧妙地区分人类写的文本和机器写的文本的方法。
AI写作检测器可以做猜测性的判断,但误差边际太大,无法依赖它们给出准确的结果。
检测AI生成内容在未来越来越重要
而对AI生成的内容,特别是文字内容的检测,在未来会越来越重要!
因为,在未来要想训练ChatGPT这样规模的语言模型,可能现有的人类数据已经快不够用了!
去年11月,MIT等研究人员进行的一项研究估计,机器学习数据集可能会在2026年之前耗尽所有「高质量语言数据」。
图片
论文地址:https://arxiv.org/pdf/2211.04325.pdf
于是很多大佬们都表示,未来可能会用AI生成的数据来训练AI。
但是这个美好的愿望可能会面临一个非常现实的问题。
因为至少目前看来,AI生成的数据对于训练AI来说,可能是有毒的。
近日,莱斯大学和斯坦福团队发现,将AI生成的内容喂给模型,只会导致性能下降。
研究人员对此给出一种解释,叫做「模型自噬障碍」(MAD)。
图片
研究发现在使用AI数据,经过第5次迭代训练后,模型就会患上MAD。
图片
在合成数据上训练AI模型会逐渐放大伪影
换句话说,如果不能给模型提供「新鲜的数据」,即由人类标注的数据,其输出质量将会受到严重影响。
一方面,研究者们在研究如何方便地给AI生成的数据打水印,让新生成的AI数据能够方便地被识别出来,从而避免被拿来进行AI训练。
另一方面,面对未来可能大量出现的没有水印的AI生成数据,把它们和人类数据区别开就是非常重要的事情。
这不但关乎学生们会不会被老师冤枉导致挂科,更严重的是会因为数据重复训练的问题导致AI发展受阻。
希望像ZeroGPT这样的平台能够尽快克服现有的技术限制,保证未来训练AI的数据尽可能是原生的人类数据。