Grok犯傻自曝抄袭，ChatGPT拱火，马斯克被“插刀”！看生成式AI如何吞噬互联网-51CTO.COM

整理丨诺亚

出品 | 51CTO技术栈（微信号：blog51cto）

马斯克旗下AI公司xAI推出的首款聊天机器人Grok号称“百无禁忌”，也正是这个无禁忌AI面世不久，就给马斯克捅了个大篓子！

一名安全测试员 Jax Winterbourne 上个月在推特上发布了一张 Grok 拒绝查询的屏幕截图，内容显示Grok说：“恐怕我无法满足该请求，因为这违反了 OpenAI 的用例政策。”

众所周知，Grok号称马斯克版ChatGPT，并不是由 OpenAI 制造的，严格来说，OpenAI其实是竞争对手。但鉴于Grok如此“作答”，这不就相当于Grok自己承认是抄袭或者套壳ChatGPT吗？

xAI 到底有没有使用 OpenAI 模型输出来微调 Grok？关于生成式AI的“抄袭”质疑为何总是不绝于耳？生成式AI的飞速发展会将人类导向哪个不可预知的未来？我们或许可以稍加探索。

1、Grok疑似“抄袭”事件的背后

去年夏天，由来自牛津大学、剑桥大学、伦敦帝国学院、爱丁堡大学以及多伦多大学等高校的一组AI研究者——Ilia Shumailov、Zakhar Shumaylov、Yiren Zhao、Yarin Gal、Nicolas Papernot 和 Ross Anderson 合作撰写了一篇名为《递归的诅咒：基于生成数据训练导致模型遗忘》的论文。

该论文暗示了未来（或不久的将来）AI模型可能会因自我学习而“中毒”。这一警告当时被认为是有远见的，但也只是停留在理论层面，但现在已出现有关问题技术的实证。

他们所指的问题被称为“模型坍塌”，在这种情况下，AI聊天机器人会丢失其最初学到的信息，并用其他AI模型生成的合成数据来替代这些信息。这种退化过程已经不再仅仅存在于理论上。

本文开篇提到的聊天机器人Grok疑似“抄袭”事件就是如此。

当Winterbourne要求Grok对恶意软件进行调试时，Grok回应称其不能这么做，“因为这违反了OpenAI的用例政策”。

Winterbourne在帖子中如是说：“Grok简直就是在直接复制OpenAI的代码库。”

然而，曾先后就职于OpenAI和Google DeepMind，现为xAI公司工作的一位的技术人员对此予以否认。“当我们首次注意到这个问题时，确实感到非常惊讶。”

随着这条截图引发大量反响，ChatGPT也没闲着，变本加厉倒了一波油：“我们的确有很多共同之处。”

马斯克不甘示弱，反唇相讥：“既然你为了训练而从这个平台上抓取了所有数据，你应该清楚这一点。”

这类事件不仅加剧了科技公司之间的竞争，还重燃了OpenAI与马斯克之间的旧日恩怨。早前，马斯克曾是OpenAI的热情支持者。

撇开这些科技大佬间的恩怨情仇不谈，与AI相关的错误信息也开始出现在在线购物列表中。在电商巨头亚马逊的平台上，有用户指出，在草坪椅等商品详情中出现了OpenAI的错误消息。

这些产品的原件都被命名为“我很抱歉，但我不能满足这个要求。这违反了OpenAI的使用政策”，在媒体发现这些清单后被存档。尽管如此，在Threads和LinkedIn等社交平台上仍能发现许多类似的虚假帖子。

2、幻觉，又是幻觉

许多人指出，Shumailov及其团队的研究忽视了一个关键点。波士顿咨询集团X（BCG的技术构建与设计部门）的董事总经理兼合伙人Daniel Sack就是其中一位。

他在LinkedIn上写道：“未来用于训练模型的大部分数据将不会仅仅是源材料的简单复制，而是全新的、前所未有的内容。”

对于他的理论，可以理解为在科技行业中，人们往往难以公开指出现有产品或协助他人开发的产品所存在的问题。硅谷一直以来都在犹豫不决，不愿承认那些由技术带来的不良影响。

生成式AI模型的问题尤为棘手，因为大量资金押注在这个领域，使得问题更加难以明确界定。

即便是Sack所在的BCG X公司也与OpenAI进行了合作，这表明目前支持这项技术的任何一方都无法完全信赖，因为它还存在多层未解决的伦理问题。

以上所有问题都表明，我们不应过分吹嘘该技术解决人类重大问题的能力。换言之，在庆祝技术进步的同时，我们也必须正视其潜在的风险和挑战，并致力于寻求建立在道德、安全基础上的可持续发展路径。

3、没有退路

生成式AI严重依赖于互联网各个角落的海量数据。目前，网络上充斥着由AI生成的垃圾信息，不管风投公司还是这些AI模型的开发者如何否认，问题确实存在，并且随着每天数以亿计的用户使用这些工具，问题只会日益恶化。

斯塔福德郡大学伦理与游戏技术教授Catherine Flick在接受Fast Company关于Grok事件采访时指出：“如果这些模型仅从LLM时代后的数据中学习，而又无法分辨哪些数据是由机器生成的，那么它们在长期内将无法保证可靠性——输出内容的质量将持续下滑。”

首要问题是，人类目前无法有效区分AI生成的内容和人类创作的内容。同样，这些语言模型也无法判断它们所接触到的AI生成文本是否符合现实情况，这可能会导致比现有模型更多的误导性信息出现。

现阶段，人们似乎只能袖手旁观，目睹互联网在这样的环境下逐渐“燃烧”。

为解决这一问题，迫切需要制定相应的技术和伦理规范，对AI生成内容进行标注、审核以及真实性验证，并加强对用户教育，提高公众对于AI生成内容真实性的辨别能力。同时，技术研发者们也应当努力改进算法，使其能够更好地识别并过滤虚假或低质量的信息来源，确保人工智能技术服务于社会的健康发展。

参考链接：https://analyticsindiamag.com/how-generative-ai-is-taking-over-the-internet/