这款Linux发行版发起AI禁令！生成代码质量堪忧！阿里也被大模型幻觉愚弄了！网友：人比生产力更重要！原创

发布于 2024-4-18 16:00

浏览

0收藏

撰稿 | 言征

出品 | 51CTO技术栈（微信号：blog51cto）

Gentoo Linux是一套通用的、快捷的、完全免费的Linux发行版，因出色的包管理系统Portage而被开发人员广为喜爱。最近，GentooLinux社区宣布：发行版将不再允许人工智能生成和辅助代码贡献。

一、Gentoo Linux禁AI令：AI生成的代码贡献要分叉

Gentoo理事会成员MichałGórny最初于2月27日提出了对人工智能代码的禁令，Gentoo是一个管理Linux发行版的民选委员会。Górny主张禁止人工智能有三个主要原因：潜在的版权侵权、质量控制问题、对人工智能高功耗的道德考虑以及大公司在技术塑造中的作用。

首先是版权问题。当下，有关AI生成内容的版权情况尚不明朗。但有一点确认的是，几乎所有LLM都是在庞大的版权材料语料库上进行培训的，以及所有花哨的“人工智能”公司都不会对侵犯版权的行为嗤之以鼻。

特别是，这些工具很有可能产生我们不能合法使用的东西。

其次是质量问题。LLM非常擅长生成看似合理实则胡说八道的内容。如果你足够小心，LLM可以提供不错的帮助，但我们总不能真的依赖于我们所有的贡献者都能意识到全部风险。2月25日，Github用户就发现了一个没有任何描述的奇怪代码包。

这款Linux发行版发起AI禁令！生成代码质量堪忧！阿里也被大模型幻觉愚弄了！网友：人比生产力更重要！-AI.x社区图片

问题描述：“pantry仓库中列出的项目描述来源于每个项目的package.yml文件。这些YAML文件包含了项目的元数据，包括项目的名称、版本、作者、描述等。你可以在pantry仓库中的twine package.yml文件中看到这样的例子。

然而，我并未找到关于这些描述如何生成或是否涉及自动过程的具体信息。可能你在pkgx.dev上看到的描述是占位符，或者是以某种方式生成的，没有准确反映项目的目的。”

最后，伦理问题。如上所述，“人工智能”企业既不重视版权，也不关心人类。人工智能泡沫正在造成巨大的能源浪费，它为裁员和加大对IT工作者的剥削提供了绝佳的借口。它正在推动互联网的恶化，助长了各类垃圾邮件和诈骗活动。

二、英伟达被起诉，阿里被AI虚拟包坑了

这些顾虑并非空穴来风，并且已经影响到了大家生活的方方面面。

版权问题方面，无疑正在成为人工智能模型的一个长期问题，这些模型正在使用受保护材料的训练，英伟达是最新被起诉的公司之一。

这款Linux发行版发起AI禁令！生成代码质量堪忧！阿里也被大模型幻觉愚弄了！网友：人比生产力更重要！-AI.x社区源：theRegister

Books3的三位作者在旧金山对英伟达发起了诉讼，理由是使用数据集训练NeMo Megatron-GPT模型，该模型已知包含许多未经许可的版权作品。

再者就是，人工智能还会产生毫无意义的文本和代码，甚至会使整个软件包产生幻觉。最近的一个知名的例子就是阿里巴巴。

被AI愚弄过关，而误把不存在的软件包添加进开源项目的企业不在少数，阿里巴巴便是其中之一。几个星期前，外媒就曾报道阿里一个名为“GraphTranslator”的github项目中，在安装说明里包含下载Python软件包huggingface cli的pip命令。

然而事实上，pip-install huggingfaces cli并不合法，是人工智能想象出来的，正确的命令应该是pip install -U "huggingface_hub[cli]".

这款Linux发行版发起AI禁令！生成代码质量堪忧！阿里也被大模型幻觉愚弄了！网友：人比生产力更重要！-AI.x社区源：theRegister

但是，通过PyPI分发并由阿里巴巴的GraphTranslator要求的huggingface cli（使用pip-install huggingfaces cli安装）是假的，是人工智能想象的。据悉，huggingface cli是一位代码安全研究员Lanyado用AI虚构的一场钓鱼实验。

在看到生成人工智能反复产生幻觉后，Lanyado于去年12月创建了huggingface-cli；到今年2月，阿里巴巴在GraphTranslator的README指令中提到了它，而不是真正的Hugging Face CLI工具。

这也就说明：在项目开发过程中由生成式人工智能发明的包名是会随着时间的推移而持续存在，这种虚假的依赖包，甚至可以通过AI虚构的代码名称来编写实际包来分发恶意代码。

这还没完，据Lanyado试验显示，GPT-3.5-Turbo、GPT-4、Gemini Pro aka、Bard和Command（Cohere），这些模型在五种不同编程语言/运行时（Python、Node.js、Go、.Net和Ruby）中，每种语言都有各自的打包系统。事实证明，这些聊天机器人凭空提取的一部分名字是持久的，有些是别名或衍生版本。

现在，小编发现GraphTranslator的安装引导说明中已经没有了上述AI造假的包名。

至于生成式AI模型所需要的水和能源的问题，相信大家已有耳闻。据《纽约客》杂志引援国外研究机构报告，ChatGPT每天要响应大约2亿个请求，在此过程中消耗超过50万度电力，也就是说，ChatGPT每天用电量相当于1.7万个美国家庭的用电量。而随着生成式AI的广泛应用，预计到2027年，整个人工智能行业每年将消耗85至134太瓦时（1太瓦时=10亿千瓦时）的电力。

除了耗电，和ChatGPT或其他生成式AI聊天，也会消耗水资源。加州大学河滨分校研究显示，ChatGPT每与用户交流25-50个问题，就可消耗500毫升的水。

我们也许在惊叹大模型给出问题答案的同时，并没有想到背后环境资源做出了怎样的“牺牲”。

话说回来，版权、质量和伦理，AI明显还没有很好的方法来规避。这也是为什么Gentoo最后决定禁止AI代码提交的原因。