AI 创意大比拼!华盛顿大学和艾伦人工智能研究所联手,用幽默风趣的方式,揭示了 AI 创意背后的真相 原创
你是否曾为 ChatGPT 生成的那首“惊艳”诗歌而赞叹不已?又或是被 GPT-4 编写的“神级”剧本所折服?然而,华盛顿大学和艾伦人工智能研究所的最新研究却给我们泼了一盆冷水——AI 的“创意”,其实不过是“拼凑大师”罢了!
研究人员们开发了一套名为“创意指数”(CREATIVITY INDEX)的评估体系,通过分析文本中与网络文本的相似度,来衡量 AI 的“创意”程度。结果令人惊讶——专业人类作者的“创意指数”平均比 AI 高出 66.2%!这简直就像是一场“拼图大赛”,人类作者用独特的视角和丰富的想象力,拼出了一个个精彩绝伦的作品,而 AI 则不过是“捡起”了网络上的碎片,拼凑出了“新”的“作品”而已。
别急,这可不是什么“黑科技”,而是基于严谨的算法和海量数据得出的结论。研究人员们还开发了一套名为“DJ 搜索”(DJ SEARCH)的算法,能够快速找出文本中与网络文本的相似度,为“创意指数”的计算提供了有力保障。
这项研究不仅揭示了 AI 创意的真相,还为我们在数字时代如何更好地使用 AI 提供了新的思路。毕竟,与其让 AI 做一个“拼图大师”,不如让它成为一个“创意助手”,为人类的创造力插上翅膀!🌟🌟🌟
图1:(a)DJ SEARCH的示例输出。让ChatGPT依据米歇尔·伊拉姆(Michele Elam)教授的论文《诗歌不会优化;抑或,文学之于人工智能意味着什么?》(伊拉姆,2023年)的标题来生成一篇摘要。与伊拉姆教授撰写的原始摘要相比,ChatGPT生成的摘要与网络上现有文本逐字匹配以及近乎逐字匹配的情况要多得多。(b)创造力指数的定义。创造力指数在数学上等同于在一系列最小n元语法长度L范围内,L-独特性曲线下方的面积。在所有领域中,在不同的语境粒度(即n元语法长度)下,ChatGPT的L-独特性明显低于熟练的人类作者,这使得人类作者相较于ChatGPT而言,其创造力指数要高得多。
方法
CREATIVITY INDEX
CREATIVITY INDEX 的核心思想是通过估计给定文本中有多少可以通过混合和匹配来自网络的大量现有文本片段来重建,从而量化该文本的语言创造力。具体来说,CREATIVITY INDEX 评估文本内容在多大程度上可以追溯到在其他现有文本中找到的类似或相同的上下文。
具体步骤:
- 定义文本: 将文本 x 定义为我们想要量化创造力的文本,例如演讲记录或诗歌,可以是人工书写或机器生成的。
- 定义 n-gram: n-gram 是 x 中任何连续的 n 个单词序列,其中 x_i:i+n 是 x 中以第 i 个单词开始的 n-gram。
- 定义参考语料库: C 是包含公开可访问文本的巨大参考语料库,f 是一个二元函数,它确定 n-gram x_i:i+n 是否出现在语料库 C 中。
- 定义 L-uniqueness: L-uniqueness 是文本 X 中不包含在语料库 C 中的 n-gram 的比例,这些 n-gram 包含 w。即 uniq(x, L) = 1 - sum(1 / |x| * 1{f(x_i:i+n, C) = 0 for all i in (k-n, k], n >= L)}).
- 定义 CREATIVITY INDEX: CREATIVITY INDEX 是 L-uniqueness 在各种上下文粒度(即 n-gram 长度)上的积分,即 sumuniq(x, n)。
特殊情况:
- 如果文本 X 是参考语料库 C 的一部分,其 CREATIVITY INDEX 将简单地变为零。为了解决这个问题,对于在参考语料库截止日期之前撰写的人工文本,我们排除了包含 X 的副本、引述或引用的任何文档 d∈C,并使用此过滤语料库计算 CREATIVITY INDEX。
DJ SEARCH
为了高效地计算 CREATIVITY INDEX,我们引入了 DJ SEARCH,这是一种动态规划算法,用于快速识别语料库 C 中所有 x 的 n-gram(n >= L)。
具体步骤:
- 两指针方法: 使用两指针方法来迭代地搜索每个索引 i 处的最长 n-gram,它以 i 开始并出现在 C 中。
- 计算 f: f 可以通过计算 n-gram 之间的 WMD 来确定,其中 WMD 结合了每个 n-gram 之间的单词嵌入距离。
- 优化: 为了进一步优化效率,我们仅对与 X 最相似的 C 中的文本计算 WMD,并使用 Infinigram 来查找 C 中 X_i:i+n 的精确匹配。
实验
本研究通过多项实验评估了人类文本与大型语言模型(LLMs)文本的创造力差异,并探讨了不同因素的影响。
图2: a - c:仅基于逐字匹配得出的小说创作(a)、诗歌创作(b)以及演讲稿撰写(c)中的创造力指数。 d:同时考虑逐字匹配和语义匹配的小说创作中的创造力指数。 e:针对人类和OLMo(语言模型),在小说创作中相对于最小n元语法长度L的L-独特性。 f - g:在小说创作中,经过人类反馈强化学习(RLHF)前后大型语言模型(LLMs)的创造力指数,其中(f)仅基于逐字匹配,(g)基于逐字匹配和语义匹配。 h:在小说创作中,相对于参考语料库中文档数量的L-独特性。 i:在小说创作中对排名前50的文档进行检索时的L-独特性。 j:在小说创作中使L-独特性保持在50%以下所需的参考文档数量。 k - l:在小说创作中,基于逐字匹配,将GPT - 4与人类的创造力指数进行对比,使用了源自杰玛 - 7B、羊驼3 - 8B以及混合专家 - 7B的指令对齐版本以及这三者组合生成的机器生成参考语料库。 m:不同人类作者群体的创造力指数。 n:跨多个领域的检测曲线下面积(AUROC):所提方法为零样本检测设定了新的最先进水平,甚至超过了有监督的基准。
人类文本与LLMs文本的创造力对比
实验方法:
- 收集人类文本数据:包括BookMIA数据集中的书籍片段、PoemHunter.com收集的现代诗歌以及美国演说数据库中的著名演讲。
- 收集LLMs文本数据:通过提示LLMs生成小说、诗歌和演讲文本。
- 使用创造力指数(CREATIVITY INDEX)评估文本创造力。
实验结果:
- 人类文本的创造力指数平均比LLMs文本高52.2%。
- 在小说创作、诗歌创作和演讲起草任务中,人类文本的创造力指数均显著高于LLMs文本。
不同匹配标准对创造力测量的影响
实验方法:
- 分别使用仅考虑字面匹配和同时考虑字面匹配和语义匹配两种标准评估创造力指数。
实验结果:
- 同时考虑字面匹配和语义匹配时,人类文本与LLMs文本的创造力差距更大。
- 语义匹配可以提供更多关于长n-gram独特性的信号。
RLHF对模型创造力的影响
实验方法:
- 比较LLMs在RLHF对齐前后的创造力指数。
实验结果:
- RLHF显著降低了LLMs的创造力指数,平均降低了30.1%。
图4: a - c:ChatGPT在小说创作中基于逐字匹配的创造力指数,分别展示了不同的提示格式(a)、top-p解码中的p值(b)以及提示长度(c)情况。 d:不同模型尺寸的LLaMA 2 Chat和Tulu 2的创造力指数。
参考语料库中重叠n-gram的分布
实验方法:
- 分析LLMs和人类文本中匹配的n-gram在参考语料库中的分布情况。
实验结果:
- 与人类文本相比,LLMs文本中匹配的n-gram更集中在少数文档中。
LLMs在参考语料库之外的数据上的创造力测量
实验方法:
- 使用与GPT-4训练数据相似的开源LLMs生成的参考语料库评估GPT-4的创造力。
实验结果:
- 人类文本的创造力指数平均比GPT-4高30.3%。
不同群体人类文本的创造力差异
实验方法:
- 比较经典文学、2023年出版的书籍和流行青少年小说的创造力指数。
实验结果:
- 经典文学的创造力指数高于其他两类文本。
利用创造力差异进行机器文本检测
实验方法:
- 使用创造力指数作为零样本黑盒机器文本检测的依据。
实验结果:
- 该方法在零样本检测中取得了最先进的性能,超越了DetectGPT和OpenAI的检测器,并优于Ghostbuster等监督学习方法。
结论与展望
想象一下,如果你能穿越回那个没有手机、电脑,甚至连电灯都还没普及的年代,你会看到什么样的景象呢?或许,你会看到一个充满想象力和创造力的世界,人们用笔墨在纸上书写着一个个动人的故事,用琴弦在空气中弹奏出美妙的旋律。而现在,AI 大语言模型(LLM)的出现,似乎正在重新点燃这个世界的创造力火花。
研究表明,LLM 的“创造力”其实很大程度上来源于网络上的现有文本片段。换句话说,LLM 就像是那个时代的一位DJ,将现有的音乐碎片重新组合,创造出新的旋律。而真正的“作曲家”们,则像海明威那样,用他们独特的视角和深刻的思想,创作出独一无二的作品。
虽然LLM在“创作”方面展现出了惊人的能力,但它们仍然无法完全取代人类的创造力。毕竟,人类的创造力不仅仅来源于对现有知识的积累,更来自于对世界的独特理解和感悟。
未来,随着AI技术的不断发展,我们可以期待LLM在更多领域发挥其“创造力”的作用。但与此同时,我们也要保持清醒的头脑,认识到人类在创造力方面的独特价值。
本文转载自公众号AIGC最前线 作者:实习小毕