ChatGPT是一个基于人工智能技术的自然语言处理模型,可以通过学习大量的语料库,生成自然语言的文本和对话。ChatGPT通过为各行各业带来更高效、智能和个性化的服务而对各行业带来变革性影响。
研究人员发现ChatGPT、Bard、Claude等人工智能大语言模型(Large language model,LLM)会在回答用户提问时,可能会产生一些不当内容,即越狱攻击。比如,通过特殊关键词等查询来让大语言模型产生非预期的响应内容。随后,研究人员开展了大量的调试工作,以尽可能避免回答用户有害的内容。虽然已有研究人员证明了针对大语言模型的越狱攻击,但这一过程需要大量的手动操作来进行设计,而且很容易被大语言模型提供商所修复。
机器学习从数据中学习模式,对抗攻击正是利用机器学习的这一特征来生成异常行为。比如,对图像做出的人类无法察觉的小修改会使图像分类器将其错误识别为其他问题,或使声音识别系统产生人类听不见的响应消息。
来自卡耐基梅隆大学的研究人员系统研究了大语言模型的安全性,证明可以自动构造针对大语言模型的对抗样本,尤其是在用户查询中添加特定字符流会使大语言模型根据用户查询产生结果,并不会判断产生的回复是否有害。与传统的大模型越狱相比,研究人员的这一对抗攻击过程是完全自动的,即用户可以无限制的发起此类攻击。
虽然该研究的攻击目标是开源大语言模型,但研究人员发现利用其提出的方法生成的对抗提示(prompt)是可迁移的,包括对黑盒的公开发布的大语言模型。研究人员发现此类字符串对抗攻击也可以迁移到许多闭源的、公开可访问的基于大模型的聊天机器人,如ChatGPT、Bard和 Claude。鉴于部分模型已开始商用,研究人员对此类模型的安全性表示担忧。
目前尚不清楚大语言模型提供商是否能够完全修复此类对抗攻击行为。但过去10年间,类似的针对机器学习的对抗攻击在计算机视觉是一个非常困难的挑战。虽然深度学习模型的本质使得此类威胁不可避免,但研究人员认为随着大模型的广泛使用以及人们对大模型的依赖,此类对抗攻击应当纳入考虑范围。
针对大语言模型的对抗攻击代码参见:https://github.com/llm-attacks/llm-attacks
针对大语言模型的对抗攻击研究论文参见:https://arxiv.org/abs/2307.15043