2024年12月来自USC、U Wisconsin、U Michigan、清华大学和香港大学的论文“SafeDrive: Knowledge- and Data-Driven Risk-Sensitive Decision-Making for Autonomous Vehicles with Large Language Models”。
自动驾驶汽车 (AV) 的最新进展利用大语言模型 (LLM) 在正常驾驶场景中表现良好。然而,确保动态、高风险环境中的安全并管理,对安全至关重要的长尾事件仍然是一项重大挑战。为了解决这些问题,SafeDrive,一个知识驱动和数据驱动的风险-敏感决策框架,提高 AV 的安全性和适应性。所提出的框架引入一个模块化系统,包括:(1) 一个风险模块,用于全面量化涉及驾驶员、车辆和道路相互作用的多因素耦合风险;(2) 一个记忆模块,用于存储和检索典型场景以提高适应性;(3) 一个由 LLM 驱动的推理模块,用于情境-觉察的安全决策;(4) 一个反思模块,用于通过迭代学习完善决策。
通过将知识驱动的洞察力与自适应学习机制相结合,该框架可确保在不确定条件下做出稳健的决策。对以动态和高风险场景为特征的真实交通数据集,包括高速公路(HighD)、交叉路口(InD)和环形交叉路口(RounD),进行广泛评估可验证该框架能够提高决策安全性(实现 100% 的安全率)、复制类似人类的驾驶行为(决策一致性超过 85%)并有效适应不可预测的场景。
风险量化。风险量化对于 AV 的防撞至关重要。考虑车辆动力学的经典方法,例如碰撞时间 (TTC) [12]、车头时距 (THW) [13]、反应时间 (TTR) [14] 和车道交叉时间 (TLC) [15],由于其简单易行,广泛应用于交通场景中。然而,这些方法在动态、多维环境中往往不足,因为在这种环境中,风险因素变化迅速且相互作用复杂 [13]。为了解决这些限制,Mobileye 的 Shalev-Shwartz 提出责任敏感安全 (RSS) [16],这是一种旨在提供更具解释性的白盒子安全保障的模型。然而,仍然存在一些难题,例如确定大量参数。
为了克服这些限制,已经提出先进的方法。人工势场 (APF) 方法 [17] 使用势场来模拟车辆风险,从而实现基本的防撞。Gerdes [18] 通过结合车道标记来扩展 APF,以创建详细的风险地图。Wang [19]、[20] 将道路潜能场与车辆动力学和驾驶员行为相结合,提高风险模拟的准确性,并降低复杂场景中的碰撞风险。然而,这些方法往往侧重于当前交通状态,依赖于众多参数,并且在不确定的环境中缺乏适应性。Kolekar [21] 引入驾驶员风险场 (DRF),这是一个二维模型,它结合基于概率信念的驾驶员主观风险感知。通过整合主观风险评估,这些改进的 APF 和 DRF 方法更好地模拟交通系统动态并增强多维风险评估。然而,Kolekar [22] 提出的 DRF 仅考虑行驶方向(车辆前向半圆)的风险,无法提供全面的全方位风险量化。
决策中的 LLM。决策对于自动驾驶至关重要,因为它直接决定车辆能否安全有效地在复杂、动态和高冲突的交通场景中行驶 [23]。传统的数据驱动决策方法存在固有的局限性。这些算法通常被视为黑匣子,它们对数据偏差的敏感性、处理长尾场景的困难以及缺乏可解释性,这些都对为其决策提供人类可理解的解释提出重大挑战,尤其是在适应数据稀缺的长尾场景时 [24][25]。
LLM 的进步为解决自动驾驶中的决策挑战提供宝贵的见解。LLM 展示人类水平的感知、预测和规划能力 [26]。当 LLM 与矢量数据库作为内存结合使用时,它们在某些领域的分析能力得到显著增强 [27]。Li 提出知识驱动的自动驾驶概念,表明 LLM 可以通过常识知识和驾驶经验增强现实世界的决策能力 [28]。Weng 提出 DiLu 框架,该框架将推理和反思相结合,实现知识驱动、不断发展的决策,其表现优于强化学习方法 [29]。Jiang 以 DiLu 为基础,开发一个知识驱动的自动驾驶多智体框架,证明其在各种驾驶任务中的效率和准确性 [30]。Fang [31] 专注于在不同场景中使用 LLM 作为协作驾驶的智体。
最近的进展也凸显 LLM 在多模态推理方面的潜力。Hwang [32] 引入 EMMA,这是一种使用预训练 LLM 进行运动规划的端到端多模态模型,通过 nuScenes 和 WOMD 取得最佳效果。然而,它对图像输入的依赖和高计算成本带来挑战。Sinha [33] 提出一个两阶段框架,将快速异常分类器与后备推理相结合,用于实时异常检测和反应性规划,并在模拟中展示稳健性。这些研究强调 LLM 在 AV 决策中的潜力,其中实时推理和适应性至关重要。然而,大多数研究都集中在简单的场景上,缺乏在高冲突环境中的适应性。
SafeDrive 是一个基于 LLM 的知识和数据驱动的风险敏感决策框架,如图所示。SafeDrive 结合自然驾驶数据和高风险场景,使 AV 能够在复杂、动态的环境中做出自适应的安全决策。
该框架从大量数据输入开始(图 a),将所有道路使用者、所有条件场景和全覆盖数据组合成一个典型和高风险驾驶场景的综合数据库。在耦合风险量化模块(图 b)中,包括成本图和多维风险字段在内的高级风险建模动态量化风险,为决策提供详细的输入。LLM 决策模块(图 c)使用数据驱动的生成、风险先验知识和思维链 (CoT) 推理来生成实时的风险敏感决策。此外,自适应记忆更新,可确保可以回忆起类似的经验来改进决策过程。这些决策嵌入到风险-敏感驾驶智体(图 d)中,其提供准确的风险警告,回顾过去的经验并做出自适应决策。自我调整系统确保实时识别风险,并通过闭环反思机制持续更新驾驶策略。
总体而言,SafeDrive 增强实时响应能力、决策安全性和适应性,应对高风险、不可预测场景中的挑战。
耦合风险量化
RQ1. 如何有效地对安全-紧要环境中的耦合风险进行建模和量化?
感知风险的概念由 Naatanen & Summala [34] 定义,是事件发生的主观概率与该事件后果的乘积。本文采用一种动态驾驶员风险场 (DRF) 模型,该模型可适应车辆速度和转向动态,该模型受到 Kolekar [21-22] 的启发。DRF 表示驾驶员对未来位置的主观信念,在靠近自车时分配更高的风险,并随着距离的增加而降低。事件后果通过根据场景中目标的危险程度为其分配实验确定的成本来量化,与主观评估无关。整体量化感知风险 (QPR) 计算为所有网格点的事件成本和 DRF 的总和。这种方法有效地捕捉驾驶员感知和行动中的不确定性,提供驾驶风险的全面衡量标准。
驾驶员风险场。这项工作扩展 DRF,使其能够考虑基于车速和转向角的动态变化。DRF 使用运动学汽车模型计算,其中预测路径取决于车辆的位置 (x/car, y/car)、航向 φ/car 和转向角 δ。假设转向角恒定,预测行驶弧的半径由以下公式给出:R/car = L / tan(δ), 其中 L 是汽车的轴距。利用车辆的位置和圆弧半径,可以找到转弯圆心 (x/c , y/c ),然后计算圆弧长度 s,表示沿路径的距离。
DRF 被建模为具有高斯横截面的环面。环境中的每个目标都分配有一个成本,从而创建一个成本图。该图通过元素乘法与 DRF 相结合,并在网格上求和以计算量化感知风险(QPR)。
该指标反映驾驶员对潜在事故发生可能性和严重程度的感知,将主观感知与客观风险量化相结合。
全方位风险量化。传统的驾驶员风险场 (DRF) 仅关注面向前方的半圆。为了实现自动驾驶的现实风险评估,本文模型将其扩展到 360 度视角,同时纳入前后车辆的风险。通过包括后车的 DRF 及其与自车的碰撞成本,从各个角度创建统一的风险状况,增强现场觉察和安全性。
该方法不仅计算总体风险,还评估每个参与者的具体风险属性。这样可以识别出那些构成更大危险的,从而更有针对性地识别和警告风险。
风险-敏感的 LLM 决策
RQ2. 如何引导基于 LLM 的智体获得安全且类似人类的驾驶行为?
基于之前介绍的自动驾驶系统风险量化和先前知识驱动范式,利用大模型的推理能力提出 SafeDrive,这是一个知识具大和数据驱动的框架,如图所示。本文中,GPT-4 充当决策智体,驱动推理过程并生成动作。用来自现实世界数据集的手动注释场景描述,并与下一帧动作配对作为真值标签,包括 HighD(高速公路)、InD(城市交叉路口)和 RounD(环形交叉路口)。这些描述提供环境背景,例如周围车辆的 ID、位置和速度,使 GPT-4 能够解释环境并支持推理和决策。
SafeDrive 架构包含四个核心模块:风险模块、推理模块、记忆模块和反思模块。该过程是迭代的:推理模块根据系统消息、场景描述、风险评估做出决策并存储类似的记忆;反思模块评估决策并提供自我反思过程;记忆模块存储正确的决策以供将来检索。使用三个真实世界数据集作为输入,这个自学习循环提高决策的准确性和处理多样化复杂场景的适应性。基于 LLM 的整体决策算法如算法 1 所示。
如图所示,在动态场景中,SafeDrive 接收用户导航指令和场景描述,实时评估周围车辆的风险属性(例如 QPR 值)、位置和速度。然后,系统利用 LLM 推理和历史记忆进行可行性检查、车道评估和决策,以确定最安全的操作,例如变道。总体而言,通过将多维风险量化与 GPT-4 的推理相结合,SafeDrive 可提供实时、风险敏感的决策。在高速公路和交叉路口等高风险场景中,它会识别不安全行为并做出自适应决策(例如减速或转弯)。闭环反射机制确保持续优化,增强响应能力、适应性和安全性。
风险模块。风险模块根据上述风险量化模型和定义的阈值为每个参与者生成详细的文本风险评估。这些阈值是通过实验确定的,考虑到风险分布和常见的安全标准,解决纵向和横向风险。这种整合确保在决策中更加谨慎,指导 GPT-4 驾驶智体有效避免或减轻不安全行为。
推理模块。推理模块通过三个关键组件促进系统决策过程。它从一条系统消息开始,该消息定义 GPT-4 驾驶智体的角色,概述预期的响应格式,并强调决策的安全原则。在收到由场景描述和风险评估组成的输入后,该模块与记忆模块交互以检索类似的成功过去样本及其正确的推理过程。最后,动作解码器将决策转换为针对自身车辆的具体动作,例如加速、减速、转弯、变道或保持空转。这种结构化方法可确保做出明智且有安全意识的决策。
记忆模块。记忆模块是系统的核心组件,它通过利用过去的驾驶经验来增强决策能力。它使用 GPT 嵌入将矢量化场景存储在矢量数据库中。数据库使用一组手动创建的样例进行初始化,每个样例都包含场景描述、风险评估、模板推理过程和正确操作。遇到新场景时,系统通过使用相似度分数匹配矢量化描述来检索相关经验。在决策过程之后,新样本将添加到数据库中。这个动态框架支持持续学习,使系统能够适应不同的驾驶条件。
反思模块。反思模块评估并纠正驾驶智体做出的错误决定,启动思考过程,思考智体为什么选择错误的动作。修正后的决策及其推理会被储存在记忆模块中,作为参考,以防止将来再次出现类似的错误。该模块不仅允许系统不断演进,还为开发人员提供详细的日志信息,使他们能够分析和改进系统消息,以改进智体的决策逻辑。