主流AI算力框架漏洞威胁全球数千大模型-51CTO.COM

近日，知名网络安全公司Oligo Security发现人工智能行业主流算力框架Ray的一个未修复安全漏洞正被黑客野外大规模利用，攻击AI工作负载并窃取敏感（生产）数据和算力。

包括亚马逊、字节跳动、Uber、OpenAI等数以千计的人工智能企业受到影响，数百个集群已经遭到攻击，超过10亿美元算力遭到“劫持”。

主流算力框架遭遇七个月野外攻击

像ChatGPT和GPT-4，以及国内的月之暗面（Kimi）等超大模型已经展示了惊人的内容生成能力和扩展能力，而支持这些模型“野蛮生长”的基础技术除了数以万计的高端GPU算力卡，还包括管理和编排这样大规模GPU集群来提供足够并行计算能力的AI算力框架，其中最流行也最重要的，非Ray框架莫属。

Ray是由Berkeley加州大学计算机教授Ion Stoica创办的Anyscale公司开发的开创性分布式AI框架，被数以千计运行AI基础设施的公司采用。包括OpenAI、亚马逊、Shopify、Uber、字节跳动在内的数以千计的公司使用Ray框架支持ChatGPT这样动辄超过千亿参数的超大模型训练所需要的大规模底层基础算力资源优化和调度。

此外，很多主流大模型项目还依赖Ray来支持SaaS、数据和AI工作负载，充分利用Ray的高可扩展性、速度和效率优势。

根据Oligo Security的报告，Ray框架曝出的漏洞编号为CVE-2023-48022，在过去7个月中一直被积极利用，涉及教育、加密货币、生物制药等多个行业。所有使用Ray框架的企业和机构都应检查其基础设施环境，确保没有漏洞暴露，并分析任何可疑活动。

AI算力基础设施漏洞野外利用第一案

2023年底，AI工作负载主流开源框架Ray曝出五个漏洞，这些漏洞由Bishop Fox、BryceBearchell和Protect AI团队分别披露（部分同时披露）。漏洞披露后，Ray的开发者和维护者Anyscale发布了一篇博文进行回应，澄清事件始末并详细介绍了每个漏洞的修复方案。

虽然报告的五个漏洞中有四个已经在Ray 2.8.1版本中得到修复，但CVE-2023-48022漏洞仍存在争议。Anyscale并未将其视为安全风险，因此没有提供即时修复方案。

由于存在争议，许多开发团队（以及大多数静态扫描工具）都没有意识到CVE-2023-48022的潜在危害。一些团队可能错过了Ray的相关文档，另一些则根本不知道此漏洞的存在。

OligoSecurity的研究人员观察到，CVE-2023-48022漏洞正被积极利用，这使得原本争议的漏洞变成了“影子漏洞”——此类漏洞不会在静态扫描中显现，却能导致安全漏洞和重大损失。

Oligo的研究团队将此漏洞命名为ShadowRay，是首个已知人工智能基础设施漏洞被用于攻击人工智能工作负载的案例。

研究发现，全球范围内已有数千台部署在公共网络上的Ray服务器因该漏洞被攻陷，有些服务器甚至已经沦陷至少7个月。其中许多服务器包含了历史命令记录，这使得攻击者更容易理解服务器上的内容，并可能泄露生产环境中之前使用过的敏感机密信息。

受Ray漏洞影响，数百家公司已经暴露于远程代码执行(RCE)风险之中，其中一些公司至今仍未修复漏洞。（文末链接的报告提供了完整的IoCs列表）。

AI算力基础设施损失超10亿美元

截至目前，Oligo已发现数百个受感染的AI算力集群。每个集群由许多节点组成，这些节点是通过网络连接到集群的机器。大多数节点都有GPU，攻击者通过安装不同类型的挖矿软件利用GPU进行加密货币挖矿活动。

换而言之，攻击者选择攻击AI算力集群不仅是因为他们可以获得有价值的敏感信息，而且因为当前GPU算力资源非常昂贵且难以获得。

GPU机器的按需价格主要取决于GPU类型和内存。截至发稿，AWS上的GPU按需价格每台机器的年成本可高达85.8万美元。

根据Oligo过去几周的监测，可能已遭到攻击的机器和算力总估值近10亿美元。