汽车多模态交互研究:交互方式日渐多元化,多模态融合有待进一步加强

智能汽车
《2021年中国汽车多模态交互发展研究报告》对主流汽车品牌交互方式进行了梳理总结。

 [[433031]]

佐思汽研发布《2021年中国汽车多模态交互发展研究报告》,对主流汽车品牌交互方式进行了梳理总结。

目前在汽车人机交互方面,呈现两大特点:

1、在交互方式上,除了触控、按键、旋钮等传统交互外,语音、手机已成为汽车人机交互的必选项。除此之外,人脸、手势、车灯也成为交互方式扩展的热门选项,更有部分品牌开始尝试眼部追踪、声纹、指纹等新型交互方式。

2、在品牌布局上,合资品牌在交互方式上相对保守,除语音、手机交互外,新型交互方式搭载较少,但豪华品牌成为多模态交互先锋。例如奔驰在其最新一代MBUX系统上,配备了人脸、手势、眼部、指纹多种新型交互。相比之下,自主头部品牌在新型交互方式的应用上更为积极,如长安汽车的视线唤醒、长城汽车的声纹识别等。

国内外主流汽车品牌部分人机交互方式如下(●量产车搭载 ○概念车搭载):

来源:佐思汽研《2021年中国汽车多模态交互发展研究报告》

语音作为常规交互方式之一,功能正在不断完善

语音交互在原有性能之外,连续对话、音区锁定、音色切换、语音自定义等特性已成为主流品牌的下一发展方向。

1、连续对话、音区锁定已有多个品牌搭载。

具备连续对话的语音交互系统能够在一次唤醒后,一定时间内无需再进行唤醒,提高指令响应的连贯性;音区锁定则可以定位语音指令的发出者,在执行“开窗”、“调节空调温度”等指令时更加精准。搭载这两项功能的品牌主要有吉利、长安、长城、奇瑞、上汽荣威、广汽传祺、小鹏、蔚来、理想等。

吉利星越L--银河OS的“主驾极客模式”支持主驾24小时免唤醒,具备四音区锁定

小鹏汽车--语音助手小P,具备全场景语音功能,支持30秒连续对话、双音区锁定

2、音色切换指语音系统除了默认语音声音外,可提供其他声音供用户选择,如明星、游戏人物的声音等。搭载品牌有吉利、长安、长城、比亚迪、荣威以及新势力品牌蔚来、小鹏、理想等。如,上汽荣威RX5搭载的斑马智行维纳斯系统可提供亲和女声、知性女声、磁性男声、稚嫩童声、热情女声五种音色供选择。

吉利星越L--银河OS支持至多10种音色切换

3、语音自定义包括语音音色自定义和语音功能自定义。

“语音音色自定义”指用户上传自己或家人的声音后,系统将该声音应用于语音响应、导航播报等场景。搭载品牌有吉利、长城、上汽荣威、广汽传祺以及R汽车等。

“语音功能自定义”指用户可自定义语音指令及该指令对应的操作,可极大地提高语音系统的可玩性,满足用户的个性化需求。搭载的品牌有小鹏汽车。

吉利星越L--银河OS 支持用户定制个性语音,自定义的真人声音可以全场景应用,包括导航、应答等。

小鹏汽车--小P私人定制,小鹏汽车的车主可通过手机APP自定义语音指令及对应的操作

手势继语音、人脸之后,成为第三种新型交互方式

手势交互主要通过车内摄像头来判断手势动作,并将数据传递给车载系统控制单元,由控制单元调出与识别出的手势相对应的功能。相较于语音控制,手势控制操作更加精准、快速,且更容易学习掌握。

搭载手势交互的品牌有宝马、奔驰、长安、长城、上汽荣威、广汽传祺、岚图、R汽车、北汽极狐、小鹏。其中长城、小鹏支持车外手势识别。

WEY摩卡--支持在车外通过手势控制车辆点火、前进、后退、暂停、熄火。

长安福特EVOS--全新一代SYNC+2.0支持手势控制静音、音乐播放、界面分屏以及返回主界面等操作。

车灯交互上车奔驰、高合、智己等品牌

车灯交互通过车灯闪烁动作、车灯投影、灯组显示屏等方式向外界传达信息,车灯交互为驾驶员与车外交通参与者的互动提供了渠道,在自动驾驶落地之际,车灯交互使自动驾驶汽车能够与周围环境进行通信。目前奔驰、奥迪、大众、长城、比亚迪、高合、智己、小鹏等品牌搭载了该交互方式。

奔驰--投影大灯将警告标识、标记辅助等与驾驶辅助系统相关的信息投射在前方道路上。

智己L7--投影大灯可投射车语、导航、警示等交互信息,并且可结合高精地图提供车道级的导航引导;灯组显示屏可提供多种图案样式,展示座舱内用户的状态;交互尾灯支持显示文字、表情,如感谢、行人提醒、充电状态等信息。

除了车灯灯组外,部分品牌尝试在车身前后增加显示屏来向行人传递信息,如北汽、三星等。

北汽Lite 300--在车辆前后配有LED显示屏,可显示文字、表情、动画以及充电信息等内容

多模态融合是下一发展方向

单一模态下的交互,对交互体验的提升有上限。未来在提高交互体验上,多模态融合是明显可行且高效的选择。目前在研的品牌有奔驰、宝马、华为、长安等。

1、语音+视线

语音交互对包含“这个、那个”等模糊指代词的识别能力几乎为零,这种情况下若加入视线追踪,由视线锁定的方向,再通过语音发出指令,可极大提高指令的响应率。

奔驰“MBUX Travel Knowledge”--驾驶员可通过视线锁定一栋建筑物,并说:“我想知道这栋楼的用途”,即可获取相关信息。该功能由Cerence Look提供技术支撑。

2、语音+唇动识别

在语音交互的过程中,对指令的准确获取是最关键的一步,而座舱复杂的环境、噪音和密集的人员增加了语音识别难度,近年新增的音区锁定在一定程度上缓解了该难题。但受限于语音单模技术瓶颈,采用单一语音技术的交互对体验的提升有限。

与唇动识别融合下的语音交互将极大提高语音识别性能,不同语言下的唇部动作不同,在嘈杂的座舱环境下,即使系统接收到声音很小,结合唇部动作也可以保障较高的语音识别率。

北汽极狐搭载的华为鸿蒙OS唇动识别(在研阶段)

 

 

责任编辑:张燕妮 来源: 佐思汽车研究
相关推荐

2023-06-05 15:50:20

数据技术

2024-03-25 12:30:18

AI训练开源

2009-12-13 15:23:36

2024-01-03 17:40:49

模型AI

2024-11-13 09:39:13

2020-09-29 17:00:33

人工智能

2011-07-27 12:58:43

Android MarAndroid应用商店

2024-05-21 07:54:30

视频多模态语义检索算法

2012-05-23 15:09:38

视频技术思科

2021-04-05 07:29:12

Windows10操作系统21H2

2020-12-10 20:00:04

数字货币比特币区块链

2011-07-29 15:02:22

LifeSize视频协作

2023-05-28 23:26:16

多模态机器学习大脑

2023-09-01 18:20:43

Chrome代码测试版

2019-03-22 10:20:39

加速Windows 10启动

2016-08-23 16:40:45

联想

2022-04-25 15:13:03

自动驾驶传感器

2023-09-18 11:41:26

论文3D
点赞
收藏

51CTO技术栈公众号