黑客入侵OpenAI，细节一年后才公开，三类数据资源让AI公司成为活靶子-51CTO.COM

作者 | Devin Coldewey

编译 | 伊风

前OpenAI员工Leopold Aschenbrenner，最近在一档播客中暗示OpenAI曾被黑客成功入侵。随后，《纽约时报》对这次攻击进行了更详细的报道。

2023 年初，一名黑客成功入侵了 OpenAI 的内部通信系统，并进入了内部员工的在线社区，平台中包含公司最新人工智能技术的讨论。

2023 年 4 月，OpenAI 的高管向员工和董事会披露了这一事件，但由于没有客户或合作伙伴的相关数据被泄露，OpenAI决定不将其公之于众。领导层认为，黑客是一个独立的实体，与任何外国政府都没有关联，因此他们没有让执法部门介入。这也引发了人们对OpenAI透明度的质疑。

虽然，OpenAI强调在这起入侵事件中，没有泄露任何用户的对话或个人信息。然而，这次黑客攻击本身给人带来的不安还只是表面性的——更重要的提示是，AI公司已经迅速成为黑客们最有吸引力的目标之一。

任何安全漏洞都不应被轻视，尤其是窃听内部OpenAI开发讨论确实有巨大的价值。但这远非黑客的全部目标：获取内部系统、研发中的模型、秘密路线图等等。

事实上，这些AI公司已经成为庞大数据的守门人。

OpenAI和其他AI公司创建了海量的数据，最值得被黑客“惦记”的莫过于：高质量的训练数据、大量用户互动及客户数据。

1.高质量的训练数据

目前尚不清楚它们拥有哪些训练数据，因为这些公司对它们的数据库进行了严格保密。

但认为它们只是大量收集的网络数据是错误的。AI公司确实使用网络爬虫或像Pile这样的数据集，不过要将这些原始数据塑造成能够训练像GPT-4o这样的模型所需的数据，需要大量的人工工作——这只能部分自动化。

一些机器学习工程师推测，在创建大型语言模型（或任何基于Transformer的系统）时，最重要的因素之一是数据集的质量。这就是为什么在Twitter和Reddit上训练的模型永远不会像在上个世纪的所有出版作品上训练的模型那样雄辩。（也可能是OpenAI据称使用了在法律上有争议的数据来源，如版权书籍，他们声称已放弃这种做法。）

因此，OpenAI构建的训练数据集对竞争对手来说具有巨大的价值，无论是其他公司、对手国家还是美国的监管机构。

2.用户互动数据

更有价值的也许是OpenAI拥有的大量用户数据 —— 大约数十亿与ChatGPT进行的对话，涉及数十万个主题。

就像搜索数据曾经是理解网络集体心理的关键一样，ChatGPT现在触及的人群也许没有谷歌用户那么广泛，但提供了更多的深度。（如果你不知道，除非你选择退出，否则你的对话正在用作训练数据。）

图片

开启“为所有用户改进模型”时，对话会进入训练数据库

例如，Google上搜索“空调”的频率增加，则说明该市场正在升温。但这些用户接下来不会告诉谷歌：他们想要什么、愿意花多少钱、他们的家是什么样子、他们想避免的制造商等等。

但你知道这是非常有价值的信息——谷歌正试图通过用AI交互替代搜索来获取这些信息！

想想人们与ChatGPT的对话有多少，以及这些信息对开发AI的人员、市场团队、顾问、分析师来说有多有用，这是一座金矿。

3.客户数据

最后一类数据可能是开放市场上价值最高的：客户实际如何使用AI，以及他们自己向模型输入的数据。

数百家大公司和无数小公司使用像OpenAI和Anthropic的API这样的工具，执行同样广泛的任务。为了使语言模型对他们有用，通常需要在它们自己的内部数据库上进行微调或以其他方式提供访问权限。

这可能是一些乏味的旧预算表或人事记录（例如，使它们更易搜索），也可能是未发布的软件代码。他们如何利用AI的能力（以及它们是否真的有用）是他们的事，但事实是，AI提供商有特权访问，就像其他任何SaaS产品一样。

这些都是工业机密，而AI公司突然间就处在这些机密的核心位置。这个行业的新奇性带来了特殊的风险，因为AI流程尚未标准化或完全理解。

像任何SaaS提供商一样，AI公司完全有能力提供行业标准的安全性、隐私性、本地选项，并且通常会负责任地提供服务。我毫不怀疑OpenAI的财富500强客户的私密数据库和API调用是严密锁定的！他们肯定对在AI环境下处理机密数据的风险非常了解。（OpenAI没有报告此次攻击是他们的选择，但这并未增加一个急需信任的公司的信任。）

但良好的安全措施并不会改变它们所保护的东西的价值，也不会改变恶意行为者和各种对手正在试图闯入的事实。

安全不仅仅是选择正确的设置或保持软件更新——尽管基础的举措也很重要。

4.写在最后

黑客与公司数据之间，是一场永无止境的猫鼠游戏，讽刺的是，现在这场游戏正被AI本身大大加速：代理和攻击自动化程序正在探查这些公司每一个角落和缝隙的攻击面。

我们没有理由惊慌——拥有大量个人或商业价值数据的公司多年来一直面临并管理着类似的风险。

但AI公司代表了一个更新、更年轻、潜在更有吸引力的目标，比你常见的配置不良的企业服务器或不负责任的数据经纪人更具吸引力。即使是像上面报道的那样的黑客攻击，据我们所知没有严重的数据泄露，也应该让任何与AI公司有业务往来的人感到担忧。

OpenAI们已经在自己背上标上了靶子。当任何人，甚至所有人，试图攻击他们时，不要感到惊讶。

参考链接：

1.https://techcrunch.com/2024/07/05/openai-breach-is-a-reminder-that-ai-companies-are-treasure-troves-for-hackers/