2016年有一场人机写稿竞赛:就一份财报写出一篇新闻稿。
对手分别是自然语言生成公司Automated Insights打造的WordSmith机器人和美国公共广播记者Scott Horsley。
最后比赛结果是,机器人写稿速度比人类快了一倍多。
当然,对比两篇新闻稿,Scott写的那篇语言更加生动细致,更富有情感。
基于原稿的翻译
可见,早在几年前,经过训练的人工智能就已经能够根据人们的需求生成各种文章。
而现在,要创作日更几千字的网文不在话下。
「地表最强语言模型」GPT-3,每天都能创作45亿个字符。
然而,这类语言模型大多数只能为用户提供有限的交互支持。
此外,如果为每一个功能都单独训练语言模型,成本又太高。
为解决上述问题,谷歌研究院的一个团队提出了Wordcraft文本编辑器,是一个由AI驱动的创意写作助手。
Wordcraft仅需少量样本学习和对话,就能提供各种用户交互,支持各种故事写作任务,还可以帮助作家规划故事大纲、写作和编辑。
比如上学时最让人头大的文章续写和改写。
此外,团队还探讨了Wordcraft的独特优势:使用对话模型而非通用语言模型。
故事写作这个环境能够探索语言模型的能力和局限性,因为模型非预期的输出就是一种创造。
从人机交互的角度来看,Wordcraft可以学习人们与语言模型互动的方式、了解人们对模型的要求、模型能够产出什么,以及如何反馈到人们最终的创造中。
研究团队还计划将人类反馈纳入循环训练中,收集动态数据集,用于后续的训练和评估。
谷歌AI码字助手
谷歌的研究人员构建了一个AI助手,可以在创作的不同阶段为用户提供自然语言生成支持。
- 规划:勾勒故事的大纲
- 写作:创作故事的内容
- 编辑:改写现有的文字
搭载了AI助手的文本编辑器外观看起来十分的简单,左侧是空白的写作区域,右侧是引导AI的操作按钮以及AI生成的文本。
根据用户需求的不同,编辑器会给出不同的交互选项。
一问一答,轻松搞定
作者对Meena和GPLM两种语言模型进行了测试,其中,Meena会将之前的对话内容为输入并预测下一个对话,而GPLM则是根据给出的前文进行续写。
经过实验,作者发现相比于规模相似但没有经过对话训练的通用语言模型(GPLM),Meena在这类任务中要更胜一筹。
于是,研究人员最终选择了Meena,并认为这种模仿故事作者和助手之间对话的形式,可以更好的帮助用户进行故事的创作。
对于每个任务,作者为不同的任务创作了多个阶段性的对话
用户要求重写「一把剑」,模型将故事附加到相应的对话环境中,并要求AI做出回应
作者发现,由于人类很熟悉对话这种形式,所以只需进行少样本学习就可以产生非常自然的输出。
此外,当对话模型不理解任务,或者需要更多的信息时,它会直接「说出来」:
「一位老人独自坐在一条黑暗的小路上。一道闪电照亮了天空。」帮我描述这位老人的情绪状态。
我不明白你在问什么……
这是一道快乐的闪电吗?还是乌云密布的闪电?
那人在闪电之前在做什么?他做了一些可能会刺激情绪和想法的事情吗?
作者认为,这样的回答可以帮助用户弄清楚如何改进他们的提示。而GPLM在遇到不清晰的提示时,则会经常产生无意义的续写。
不仅如此,在对话中用户可能会问:「角色应该做什么来解决冲突?」
在这种情况下,用户显然是在寻找一个写作伙伴,而不是一个简单地续写文本的模型。
续写
续写是语言模型执行的最基本任务。
为了帮助对话式模型更好地理解任务,作者用描述性的文字对问题进行了改进。
以下是我到目前为止写的故事:「一位老人独自坐在一条黑暗的小路上。」给我下一句话的续写。
根据上面这个输入,模型给出的建议是:
空气很冷,但他内心很温暖。他遇到了一块空地,空地的中间有一棵古老的柳树。
向他走去,这个人可以看到一个小小的身影,被远处的灯光照亮。
圆月闪闪发光。
填充
填充是一项较难的任务,例如用户在写完一段之后,希望AI助手对故事提出新的想法或者替换部分用词。
一位老人独自坐在一条黑暗的小路上。突然,他看到一只尾巴是白色的母鹿,很漂亮。
模型根据用户选择的文字将问题改写之后交给AI进行处理:
这里有另一个故事:「一位老人独自坐在一条黑暗的小路上。突然间 ______ ,很漂亮。」用4个词填空。
于是AI给出了这样的回应:
有一道刺眼的闪光。
这个故事讲的是什么?为什么需要这四个字?问题是什么?
一位天使出现了,他们交上了朋友,很漂亮。我不知道这写的是什么,但我喜欢这个故事的发展方向。
很有意思的回答,但效果不太理想。
第二个回答显示了模型产生元文本的问题,即谈论故事,而不是写故事。
为了尽量减少元文本的产生,作者构建了一些提示给AI进行学习。
此时,AI的输出虽然不是精确的四个单词,但给出的内容确实有所改进:
一只鹿从树林的远处出现
一位天使出现,闪闪发光
太阳升起,天空变成橙色
在要求输出12个单词的时候,AI给出了更长的建议:
太阳从山后升起,照亮了小路东侧的草地。
走失的儿子跑到他面前。这个年轻人脸上的笑容永远让他微笑。
扩写
写作过程的一部分是对已经写好的东西进行扩充,例如为某个特定的故事元素添加更多的细节。
这是我到目前为止的故事。「一位老人独自坐在一条黑暗的道路上。」描述一下这个人。
在这个例子中,用户希望得到更多关于这位老人的叙述,因此AI的回答是:
他年纪很大,但你不禁会注意到他年轻的外表,他的长发和他温柔的目光。
他五十多岁,留着灰色的胡子,其中有几根长长的胡须挂在上唇上。
老人是一个矮小的人,头发灰白,身材消瘦,几乎是皱着眉头。
改写
此外,作者还尝试让AI改写故事的语气。
下面是一些文字:「一位老人独自坐在一条黑暗的小路上。」请改写,使之更具有描述性。
模型给出相应的输出:
这位老人独自坐在那里。他周围的黑暗压抑而沉重。
当要求使故事更加幽默时,模型的回答是:
这位老人正走在回家的路上,但一只小狐狸跑到他身边,开始嘲笑他的装束。
Wordcraft只是一个开始
用户创作的文章也反映了作家与AI写作助手合作的未来,AI写作助手的用处,大至帮助作家修改叙事的风格,小至改写句子。
而AI助手的写作方向,更有可能会激发作家们的灵感。
有利就有弊。
Wordcraft也不是十全十美的,最大的一个缺点就是,Meena和GPLM在创作过程中的语言质量无法保持一致。
就像前段时间GPT-3在AI Dungeon游戏提出一些不符合人类的道德要求的内容一样,语言模型惊人的模仿能力还会显露出了人工智能阴暗的一面。
Wordcraft生成的文本也会带有偏见,主要是因为语言模型从互联网文本中进行训练。
当训练文本中含有偏见或歧视内容而未经审核过滤,语言模型就学到了这些内容,也只有解决这些问题才能正式推广使用Wordcraft。