近日,美国国防部承认今年在伊拉克和叙利亚的85次空袭行动中使用了机器学习算法来识别目标,这是美国军方首次承认人工智能技术被用于实战。
人工智能首次用于实战
据彭博社报道,负责中东、中亚和部分南亚地区的美国中央司令部在今年2月2日的7次空袭行动中使用了军用人工智能项目Maven中的目标识别算法,覆盖了伊拉克和叙利亚的多个地点。
美国中央司令部首席技术官舒勒·摩尔(Schuyler Moore)表示,军方是在去年哈马斯出其不意袭击以色列后开始在实战行动中部署“Maven项目”的计算机视觉系统。
“10月7日一切都发生了变化,”摩尔告诉彭博社,“我们立即开始高速运转,比以往的行动节奏要快得多。”
这些对象识别算法用于识别潜在目标,最后由人工操作武器系统。据报道,美国使用该软件识别敌人的火箭、导弹、无人机和民兵设施。
事实上,早在2017年五角大楼就开始着手开发代号为“Maven“的军用人工智能项目,并寻找能够为无人机拍摄的画面开发对象识别软件的供应商。2017年,美国海军陆战队上校德鲁·库克尔(Drew Cukor)曾表示,五角大楼希望将Maven软件与政府平台集成,以便收集情报。
虽然谷歌因员工抗议将人工智能用于战争而退出该项目,但其他硅谷科技公司却乐于提供帮助推动Maven项目开发。
用大语言模型改变战场态势
美军并不满足用目标识别机器学习算法提高空袭的精度和效率,基于大语言模型的“战场大脑”才是真正能够改变战场态势的关键技术。大语言模型分析和生成文本的能力可以提高五角大楼收集情报、规划行动的能力,从而指导战场决策。
2023年,随着大语言模型的横空出世,美国军方加快了人工智能技术的军事化速度。
2023年8月,美国国防部成立了利马特遣部队,负责研究生成人工智能可以为军队做什么,其既定目标是保护国家安全。该工作组由国防部副部长凯瑟琳·希克斯组建,由首席人工智能办公室领导。它将分析大型语言模型等不同的工具,并找出如何将它们集成到军队的软件系统中。
2023年10月,美国国家安全局设立人工智能安全中心来监督人工智能开发并将其整合到国防和国家安全系统中。据美国国防部称,人工智能安全中心将集中管理关键系统人工智能应用最佳实践以及评估和风险框架。
美国国防部首席人工智能官克雷格·马特尔(Craig Martell)上周在“2024年国防部优势:国防数据和人工智能研讨会”上描绘了大语言模型指导作战决策的场景:“想象一个世界,战斗指挥官可以看到他们做出战略决策所需的一切,(战场)态势感知的周转时间从一两天缩短到10分钟。”
虽然马特尔的构想足够诱人,但美国军方的“大模型作战”计划似乎并不顺利。“在过去的60到90天里,我们的目标识别机会更多了,”摩尔透露:美国中央司令部还尝试运行一个人工智能推荐引擎,看看它是否可以建议在军事行动中使用最佳武器组合并制定攻击计划。然而,这项技术“经常达不到要求”。
军用大语言模型的挑战
军用大语言模型的最大障碍是:目前的大语言模型的准确性还远远达不到可独立可靠运行的“军用级别”。“没有任何算法可以完全自主运行,得出结论然后推进到下一步,”摩尔指出:“每个涉及人工智能的步骤最终都有人工检查。”
数据安全也是美国军方重点关注的人工智能安全问题。虽然ChatGPT是目前最强大的大语言模型应用(且OpenAI一个月已经修改使用政策,默许军方使用),但美国国防部显然无法接受ChatGPT这种通用大语言模型普遍存在的数据安全问题。据报道,美军已经禁止在内部使用ChatGPT之类的工具。例如,美国太空军告诉工作人员不要使用ChatGPT,因为担心军事机密可能被泄露或提取。
由于军事数据通常高度敏感,美军官员们担心,如果数据进入大语言模型,即时注入攻击或API滥用可能会导致数据泄露。
为了寻找ChatGPT的理想替代品,美国国防部正在加大努力整合和测试人工智能的作战能力。例如,美国国防部正在与初创公司Scale AI合作,测试军用生成式人工智能模型。
军用大语言模型进入实战的最大安全问题是容易产生不准确或虚假的信息,即所谓的机器幻觉。五角大楼认为,通过引入Scale AI,可以测试不同模型的性能,以识别潜在风险,然后再考虑使用它们来支持作战或情报。
ScaleAI负责为五角大楼开发一个工具和数据集框架,用于评估军用大语言模型。该框架的功能包括“测量大模型性能,为作战人员提供实时反馈,以及创建专门的公共部门评估集来测试军事应用领域的人工智能模型。
“美国国防部有责任在追求生成式人工智能模型的同时,采取适当的保护措施,并减轻因训练数据管理不善等问题可能带来的国家安全风险,”美国国防部首席人工智能官马特尔表示,“我们还必须评估对手将在多大程度上使用人工智能技术,以及破坏美军人工智能技术的能力。”