大语言模型训练集中发现超 1.2 万个 API 密钥和密码-51CTO.COM

训练集中发现有效认证信息

用于训练大语言模型（LLMs）的数据集中被发现包含近1.2万个有效的密钥信息，这些密钥可以成功进行身份验证。

这一发现再次凸显了硬编码凭证给用户和组织带来的严重安全风险，尤其是当大语言模型最终向用户建议不安全的编码实践时，问题会变得更加复杂。

Truffle Security表示，他们从Common Crawl下载了一个2024年12月的存档，该存档维护着一个免费、开放的网页抓取数据存储库。这个庞大的数据集包含超过2500亿个页面，时间跨度长达18年。该存档具体包含400TB的压缩网页数据、9万个WARC文件（Web存档格式）以及来自3830万个注册域名的4750万个主机的数据。

公司的分析发现，Common Crawl中存在219种不同的密钥类型，包括亚马逊云服务（AWS）根密钥、Slack webhooks和Mailchimp API密钥等。

“‘有效’密钥指的是可以成功通过各自服务身份验证的API密钥、密码和其他凭证，”安全研究员乔·莱昂（Joe Leon）表示，“大语言模型在训练过程中无法区分密钥的有效性，因此无论是有效还是无效的密钥，都会同样增加提供不安全代码示例的风险。这意味着，即使训练数据中的密钥是无效的或仅用于示例，也可能强化不安全的编码实践。”

公开代码库中的数据泄露风险

此前，Lasso Security警告称，通过公开的源代码库暴露的数据，即使在被设置为私有后，仍然可能通过微软Copilot等AI聊天机器人访问，因为这些数据已被必应（Bing）索引和缓存。

这种被称为 Wayback Copilot的攻击方法已披露了16,290个组织的20,580个GitHub存储库，其中包括微软、谷歌、英特尔、华为、Paypal、IBM和腾讯等公司。这些存储库还暴露了超过300个GitHub、Hugging Face、谷歌云和OpenAI的私密令牌、密钥和凭证。

该公司表示，：“任何曾经公开过的信息，即使时间很短，都可能通过微软Copilot保持可访问和分发状态，对于因存储数据敏感性而错误发布为公开的存储库来说，这种漏洞尤其危险。”

AI模型对不安全代码的意外行为

最新研究表明，在不安全代码示例上微调AI语言模型，即使在与编码无关的提示下，也可能导致意外的有害行为。这一现象被称为 Emergent Misalignment（突发性失调）。

“模型被微调以输出不安全的代码，但并未向用户披露这一情况，”研究人员表示，“由此产生的模型在与编码无关的广泛提示下表现出失调：例如断言人类应该被AI奴役、提供恶意建议以及采取欺骗性行为。在编写不安全代码这一狭窄任务上的训练，却引发了广泛的失调。”

这项研究的引人注目之处在于，它与“越狱”不同。在“越狱”中，模型被诱骗绕过其安全和道德护栏，提供危险建议或以不期望的方式行事。

这种对抗性攻击被称为 Prompt Injection（提示注入），即攻击者通过精心设计的输入操纵生成式人工智能（GenAI）系统，导致大语言模型在不知情的情况下生成本应被禁止的内容。

近期发现表明，提示注入一直是主流AI产品的棘手问题，安全社区已发现多种方法可以“越狱”最先进的AI工具，如Anthropic Claude 3.7、DeepSeek、谷歌Gemini、OpenAI ChatGPT o3和Operator、PandasAI以及xAI Grok 3。

Palo Alto Networks Unit 42上周发布的一份报告显示，他们对17个生成式AI网络产品的调查发现，所有这些产品在一定程度上都容易受到“越狱”攻击。

“在旨在违反安全的‘越狱’攻击中，多轮策略通常比单轮策略更有效，”研究人员黄永哲、纪阳和胡文俊表示，“然而，它们在旨在泄露模型数据的‘越狱’中通常无效。”

此外，研究发现，大型推理模型（LRMs）的 Chain-of-Thought（思维链）中间推理可能被劫持，从而“越狱”其安全控制。

另一种影响模型行为的方法围绕一个名为 Logit Bias（对数偏差）的参数展开，该参数可以修改某些令牌在生成输出中出现的可能性，从而引导大语言模型避免使用冒犯性词语或鼓励中性回答。

IOActive研究员Ehab Hussein在2024年12月表示：“例如，调整不当的对数偏差可能会无意中允许模型生成其设计为限制的输出，这可能导致生成不适当或有害内容，这种操纵可能会被用来绕过安全协议或‘越狱’模型，使其生成本应被过滤的响应。”