汽车多模态交互研究：交互方式日渐多元化，多模态融合有待进一步加强-多模态交互系统

佐思汽研发布《2021年中国汽车多模态交互发展研究报告》，对主流汽车品牌交互方式进行了梳理总结。

目前在汽车人机交互方面，呈现两大特点：

1、在交互方式上，除了触控、按键、旋钮等传统交互外，语音、手机已成为汽车人机交互的必选项。除此之外，人脸、手势、车灯也成为交互方式扩展的热门选项，更有部分品牌开始尝试眼部追踪、声纹、指纹等新型交互方式。

2、在品牌布局上，合资品牌在交互方式上相对保守，除语音、手机交互外，新型交互方式搭载较少，但豪华品牌成为多模态交互先锋。例如奔驰在其最新一代MBUX系统上，配备了人脸、手势、眼部、指纹多种新型交互。相比之下，自主头部品牌在新型交互方式的应用上更为积极，如长安汽车的视线唤醒、长城汽车的声纹识别等。

国内外主流汽车品牌部分人机交互方式如下（●量产车搭载 ○概念车搭载）：

来源：佐思汽研《2021年中国汽车多模态交互发展研究报告》

语音作为常规交互方式之一，功能正在不断完善

语音交互在原有性能之外，连续对话、音区锁定、音色切换、语音自定义等特性已成为主流品牌的下一发展方向。

1、连续对话、音区锁定已有多个品牌搭载。

具备连续对话的语音交互系统能够在一次唤醒后，一定时间内无需再进行唤醒，提高指令响应的连贯性；音区锁定则可以定位语音指令的发出者，在执行“开窗”、“调节空调温度”等指令时更加精准。搭载这两项功能的品牌主要有吉利、长安、长城、奇瑞、上汽荣威、广汽传祺、小鹏、蔚来、理想等。

吉利星越L--银河OS的“主驾极客模式”支持主驾24小时免唤醒，具备四音区锁定

小鹏汽车--语音助手小P，具备全场景语音功能，支持30秒连续对话、双音区锁定

2、音色切换指语音系统除了默认语音声音外，可提供其他声音供用户选择，如明星、游戏人物的声音等。搭载品牌有吉利、长安、长城、比亚迪、荣威以及新势力品牌蔚来、小鹏、理想等。如，上汽荣威RX5搭载的斑马智行维纳斯系统可提供亲和女声、知性女声、磁性男声、稚嫩童声、热情女声五种音色供选择。

吉利星越L--银河OS支持至多10种音色切换

3、语音自定义包括语音音色自定义和语音功能自定义。

“语音音色自定义”指用户上传自己或家人的声音后，系统将该声音应用于语音响应、导航播报等场景。搭载品牌有吉利、长城、上汽荣威、广汽传祺以及R汽车等。

“语音功能自定义”指用户可自定义语音指令及该指令对应的操作，可极大地提高语音系统的可玩性，满足用户的个性化需求。搭载的品牌有小鹏汽车。

吉利星越L--银河OS 支持用户定制个性语音，自定义的真人声音可以全场景应用，包括导航、应答等。

小鹏汽车--小P私人定制，小鹏汽车的车主可通过手机APP自定义语音指令及对应的操作

手势继语音、人脸之后，成为第三种新型交互方式

手势交互主要通过车内摄像头来判断手势动作，并将数据传递给车载系统控制单元，由控制单元调出与识别出的手势相对应的功能。相较于语音控制，手势控制操作更加精准、快速，且更容易学习掌握。

搭载手势交互的品牌有宝马、奔驰、长安、长城、上汽荣威、广汽传祺、岚图、R汽车、北汽极狐、小鹏。其中长城、小鹏支持车外手势识别。

WEY摩卡--支持在车外通过手势控制车辆点火、前进、后退、暂停、熄火。

长安福特EVOS--全新一代SYNC+2.0支持手势控制静音、音乐播放、界面分屏以及返回主界面等操作。

车灯交互上车奔驰、高合、智己等品牌

车灯交互通过车灯闪烁动作、车灯投影、灯组显示屏等方式向外界传达信息，车灯交互为驾驶员与车外交通参与者的互动提供了渠道，在自动驾驶落地之际，车灯交互使自动驾驶汽车能够与周围环境进行通信。目前奔驰、奥迪、大众、长城、比亚迪、高合、智己、小鹏等品牌搭载了该交互方式。

奔驰--投影大灯将警告标识、标记辅助等与驾驶辅助系统相关的信息投射在前方道路上。

智己L7--投影大灯可投射车语、导航、警示等交互信息，并且可结合高精地图提供车道级的导航引导；灯组显示屏可提供多种图案样式，展示座舱内用户的状态；交互尾灯支持显示文字、表情，如感谢、行人提醒、充电状态等信息。

除了车灯灯组外，部分品牌尝试在车身前后增加显示屏来向行人传递信息，如北汽、三星等。

北汽Lite 300--在车辆前后配有LED显示屏，可显示文字、表情、动画以及充电信息等内容

多模态融合是下一发展方向

单一模态下的交互，对交互体验的提升有上限。未来在提高交互体验上，多模态融合是明显可行且高效的选择。目前在研的品牌有奔驰、宝马、华为、长安等。

1、语音+视线

语音交互对包含“这个、那个”等模糊指代词的识别能力几乎为零，这种情况下若加入视线追踪，由视线锁定的方向，再通过语音发出指令，可极大提高指令的响应率。

奔驰“MBUX Travel Knowledge”--驾驶员可通过视线锁定一栋建筑物，并说：“我想知道这栋楼的用途”，即可获取相关信息。该功能由Cerence Look提供技术支撑。

2、语音+唇动识别

在语音交互的过程中，对指令的准确获取是最关键的一步，而座舱复杂的环境、噪音和密集的人员增加了语音识别难度，近年新增的音区锁定在一定程度上缓解了该难题。但受限于语音单模技术瓶颈，采用单一语音技术的交互对体验的提升有限。

与唇动识别融合下的语音交互将极大提高语音识别性能，不同语言下的唇部动作不同，在嘈杂的座舱环境下，即使系统接收到声音很小，结合唇部动作也可以保障较高的语音识别率。

北汽极狐搭载的华为鸿蒙OS唇动识别（在研阶段）