3 月 18 日消息,据腾讯科技报道,包括图灵奖得主约书亚・本吉奥、杰弗里・辛顿、姚期智等在内的数十位的中外专家日前在北京联合签署了由智源研究院发起的《北京 AI 安全国际共识》,涉及人工智能“风险红线”和“路线”两大块,其中“风险红线”包含“自主复制、改进”“权力寻求”“协助不良行为者”和“欺骗”四个部分。
IT之家整理四部分内容大致如下:
- 人工智能的“自主复制、改进”:强调人在该过程的作用,要求任何人工智能系统都不应在人类没有明确批准和协助的情况下复制或改进自身,包括制作自身的精确副本、创造具有相似或更高能力的新人工智能系统。
- “权力寻求”:明确要求任何 AI 系统不能采取不当增加自身权力、影响力的行动。
- “协助不良行为者”:所有 AI 系统都不应辅助提升其使用者的能力,使之可达设计大规模杀伤性武器、违反生物或化学武器公约,或执行导致严重财务损失或同等伤害的网络攻击领域专家的水平。
- “欺骗”:要求任何 AI 系统都不可拥有持续引导其设计者或监管者误解其僭越任何前述红线的可能性。
据介绍,该共识呼吁行业在进行 AI 技术研发时,限制其获取通过“越狱”“诱导开发者”的形式获得超常规权限,并限制 AI 在未经监管的情况下进行自身复制与改进,为 AI 的发展套上“紧箍咒”。
共识还强调,确保上述红线不被僭越可以实现的前提,是行业共同努力,建立并改进治理机制,同时研发更多安全的技术。关于 AI 的发展路线,则涉及“治理”“测量与评估”“技术合作”三部分。大致如下:
- 治理:建议针对超过特定计算或能力阈值的人工智能模型和训练行为,立即实施国家层面的注册。
- 测量与评估:在实质性风险出现之前开发全面的方法和技术,使红线具体化、防范工作可操作化,并建议组建由人类监督下的红队测试和自动化模型评估,且开发者应当为人工智能的安全性负责。
- 技术合作:建立更强的全球技术网络,呼吁 AI 开发者和政府资助者将超过 1/3 的预算投入到安全领域。