近日,美国国家标准技术研究院(NIST)重新发布了名为Dioptra的AI模型风险测试平台,用于评估AI风险和恶意攻击,尤其是针对AI模型训练数据的“投毒攻击”。该工具专注于对抗性攻击的测试,提供基准测试和红队测试环境。其特点是模块化、开源,适用于政府机构和中小企业。
美国主导的AI安全标准
Dioptra以古希腊天文测量和土地测量工具命名,是一个模块化、开源的基于Web的工具。该工具最初于2022年发布,旨在帮助训练和使用AI模型的公司和个人评估、分析和跟踪AI风险。NIST表示,Dioptra可用于AI模型基准测试和研究,同时提供一个共同平台,在“红队”环境中模拟威胁暴露模型。
NIST在新闻发布会上写道:“测试对抗性攻击对机器学习模型的影响是Dioptra的目标之一。”“这款开源软件提供免费提供下载,可以帮助社区(包括政府机构和中小型企业)进行评估,以验证AI开发者关于其系统(安全)性能的声明。”
近年来,面对以AI为代表的新技术革命,美国希望牢牢巩固其“智慧密集产业”的霸主地位,控制AI技术标准是其重点战略。
事实上,Dioptra是拜登政府颁布的的AI总统行政命令的直接产物,该命令要求NIST协助开展AI系统测试。该行政命令还包括建立AI安全标准,包括要求开发模型的公司(例如谷歌、苹果公司)在公开部署AI模型前通知联邦政府并分享所有安全测试结果。
Dioptra也是NIST最近成立的AI安全研究院的首个重大项目,提出了减轻AI风险的方法,例如防止AI被滥用生成非自愿色情内容。此前,英国AI安全研究院推出了Inspect工具集,同样旨在评估模型能力和整体模型安全。去年11月在英国布莱切利公园举行的英国AI安全峰会上,美国和英国宣布了共同开发先进AI模型测试的持续合作伙伴关系。
AI模型风险测试市场竞争激烈
随着AI技术的广泛应用,各行业对AI模型安全性的需求不断增加。金融、医疗、通信等领域尤其重视AI系统的可靠性和安全性。因此,这些领域的企业和机构积极采用AI模型风险测试工具,以确保其系统能够抵御各种潜在的攻击和风险。
尽管市场上有多种工具可供选择,但每种工具都有其局限性。许多开源工具,如Dioptra和CleverHans,虽然功能强大,但对初学者不够友好,使用门槛较高。而一些定制化程度高的工具,如ZTE的SecML,市场认知度较低,社区支持相对薄弱。此外,AI基准测试的复杂性和“黑箱”模型的不可解释性,增加了风险评估的难度。
以下是全球市场主要AI模型测试工具的对比分析:
国内的代表性AI模型风险评估工具和方案来自网络安全厂商绿盟科技和奇安信:
- 绿盟AI大模型风险评估工具:旨在帮助企业全面评估AI大模型的安全风险。该工具涵盖了多种商业和开源大模型,并具备迅速适配新兴大模型的能力。它基于专家团队筛选的测试用例库,能够识别内容安全和对抗安全的潜在威胁,并提供风险处理建议。
- 奇安信AI安全整体应对方案:奇安信发布的国内首个AI安全整体应对方案,虽然不是单一的测试工具,但它提供了包括AI安全框架、解决方案、评估服务和测试工具在内的全面服务,以确保监管与治理及时跟进,筑牢AI安全基石。
AI安全基准测试面临的挑战
目前,对主流AI模型进行安全基准测试仍是极为困难的任务,部分是因为当今最先进的AI模型都是黑盒技术,其基础设施、训练数据和其他关键技术(参数)细节由开发它们的公司保密。
此外,总部位于英国的非营利性AI研究机构Ada Lovelace Institute本月发布的一份报告发现,仅靠评估并不足以确定AI模型在现实世界中的安全性,部分原因是现行政策允许AI供应商自行选择要进行的评估内容。
最后,AI安全测试工具本身也大多存在局限性,例如NIST并不认为Dioptra可以完全消除AI模型的风险。但该机构指出,Dioptra至少可以揭示哪些类型的攻击可能会降低AI系统的性能,并量化这种对性能的影响,从而加强AI系统的安全性和可靠性,为AI技术的安全部署提供强有力的支持,并推动整个行业对AI风险管理和安全防护的重视和发展。
Dioptra在技术上的一个主要限制是,它只适用于可下载到本地运行的AI模型,例如Meta的Llama系列,目前还无法测试API背后的模型(如 OpenAI的GPT-4o)。