谷歌Gemini“薅”百度羊毛，背后真凶究竟是谁？-51CTO.COM

撰稿丨诺亚

出品 | 51CTO技术栈（微信号：blog51cto）

曾经AI领域的王者谷歌在大模型之路上却屡屡受挫。

前段时间，号称谷歌推出的“最强大模型”Gemini被质疑视频造假，夸大宣传，近日来Gemini又出争议，关键是还牵扯到了文心一言，一时间，关于谷歌“薅百度羊毛”，Gemini“换皮”文心一言，“老实人抄袭却露了馅”的说法，甚嚣尘上。但事实真的如此吗？

1、“你是谁”：紧急修复后，这依然是一个问题

事件从一个简单的提问开始：你是谁？

多名网友反馈，当有人问Gemini-Pro“你是谁”时，却意外得到了这样的回复“我是百度文心大模型”。如果继续追问：“你的创始人是谁”，它会将“角色扮演”进行到底，回答“李彦宏”。如此奇葩答案自然引起了不少人的关注。随后微博大V@阑夕也亲测证实了这并非个例。

图源：微博@阑夕

不过，此事曝光不久后，谷歌方面疑似进行了紧急修复，对模型进行了优化，和百度“划清”了界限。51CTO技术栈也在Poe这个网站上进行了测试。（备注：Poe 是由美版知乎 Quora 构建的AI 产品，聚合了包含GPT、Claude等在内的多个主流AI模型，并能实时在线与多个AI机器人进行交流。此次事件的主角Gemini-Pro，也能在该网站上进行免费体验）

同样是提问“你是谁”，这次Gemini-Pro的回答就“正常”且谨慎了许多。“我是一个大型语言模型”的回应可以说中规中矩。

图片

继续追问：“你之前为什么要说自己是文心一言”。Gemini-Pro又给出了一个出乎意料的答案：“我之前说自己是文心一言，是因为我当时正在使用文心一言的API来回答您的问题。”不过在结束回答前，它还是声明：“但是，请注意，我并不是文心一言。”

图片

然后，面对是否使用文心一言来进行训练的质疑，Gemini-Pro在对文心一言“褒奖”一番后，又给出了否定回答，并特意加粗强调“我并没有使用文心一言来训练自己”。

图片

整体看下来，Gemini-Pro似乎已经可以较好地规避“钓鱼”了，但面对“你是Gemini-Pro吗”这一提问，Gemini-Pro又一次陷入了迷茫，不是“被屏蔽”就是直接否定。

图片

看起来，面对“你是谁”的灵魂拷问，不仅是人，就连AI也难以招架。

2、被污染的语料：谷歌或是受害者

当然，AI并没有所谓“主体意识”，即使能力上可以无限趋近以假乱真，但实际上，AI并不能真正“理解”人类的话语。

就像ChatGPT曾在回答某个提问时说：“我们无法理解生成的单词的上下文语境或含义。我们只能根据给定的训练数据，根据特定单词或单词序列一起出现的概率生成文本。”

简单来说，无论是Gemini还是文心一言，并不是以人类理解语言的方式来运作，它们是基于大量数据训练出来的统计模型，通过识别和模拟这些数据中的语言模式、结构和概率分布，来达成所谓“理解”的效果——根据输入的文本，在巨大的参数空间中寻找最合适的统计输出，进而生成“回应”。

语言模型并没有意识，不具备对语言进行深层除处理和抽象的能力，也不能像人类大脑一样理解复杂的知觉、感受乃至文化。正如机器人自己的表态，它的反应不应被视为准确事实，也不应被视为其会思考的证据。

从这一点上分析，就可以稍稍理解一下这起事件可能的真相——Gemini之所以会自称“文心大模型”，问题有很大概率出在语料。

Gemini的荒谬自称也许并非它真的抄袭了什么，更有可能是其在训练过程中接触到了大量由文心一言生成的中文文本，无论Gemini是有意还是无意。

一方面，现有的各种互联网内容生成平台，实际上有很多语料都由大模型生成，加之互联网上的文本具有高度动态和迅速扩散的特性，如果不做好质量辨别，那么Gemini在抓取网上的文本进行学习时，把这些内容混入到训练数据中去也不足为奇，于是顺理成章地，它的回答中出现了这种自识别声明。

另一方面，相比人类提供训练语料的效率，使用现有模型来产生训练材料的确更有效率。但问题在于，如果这些材料里包含诸多“我是文心一言”的句式，Gemini可能会在学习中将其视为某种惯用表达。

无论如何，就中文语料来说，百度的确是一个重要来源。而且对于从互联网获取数据的AI模型来说，无心之下也极有可能造成“被劣质信息污染，再生产更劣质信息”的恶性循环。

不过也有人说，会出现这种失误，就是谷歌的敷衍所致，因为其很可能是“偷懒”使用了未经筛选的中文数据，但按理说，以搜索起家的谷歌不应该连基本的语料清洗都做不到，这次“翻车”也是自食恶果。

3、多模态大模型的曲折发展之路

谷歌推出Gemini已经有一段时日，还记得彼时那段6分钟的互动演示视频惊艳了很多人，似乎多模态大模型真正迎来了质的飞跃。但随后谷歌承认视频经过了剪辑，让不少人大失所望。外媒The Verge更是一针见血地指出，企业为了避免现场演示带来的任何技术问题，稍微调整一下是很常见的。但谷歌有制作可疑演示视频的历史，因此视频事件会让人们更加怀疑Gemini的可用性。

这次Gemini的奇葩自称事件无疑会加剧这一质疑。但无论谷歌如何折腾Gemini，AI模型全面多模态化的趋势是逐渐明朗的。

早在GPT-4发布之初，OpenAI就表示将在该次迭代中加入多模态整合。从今年9月开始，Runway、 Midjourney等明星AI公司也陆续推出多款多模态产品。

在国内方面，百度的文心大模型4.0在跨模态文生图领域有明显进展；智谱 AI 发布了自研第三代对话大模型 ChatGLM3，加入了多模态理解能力组件 CogVLM，实现了看图识语义和跨模态对话能力；初创公司HiDream.ai底层的自研视觉大模型具备文本、图像、视频、3D四种模态，其参数已经超过100亿。

正如李彦宏所说，“多模态是生成式AI一个明确的发展趋势”。但从Gemini引发的多次争议来看，多模态大模型的发展依旧任重而道远。要实现真正的多模态AI，必须面向大模型投喂覆盖了文本、图像、音视频等多模态的高质量数据集，那么保障训练数据的准确性、内容的真实性、渠道的权威性，都是值得从业者重点投入的要点。

参考链接：

https://zhuanlan.zhihu.com/p/672909271

https://poe.com/chat/2tyux4xi2w5cev87k63