【51CTO.com原创稿件】2017年7月21-22日, 以“人工智能,不止于技术的革命”为主题的WOT2017全球创新技术峰会在北京富力万丽酒店圆满落幕。本次峰会为期两天,30+人工智能领域的一线实战专家、BAT等企业技术大牛围绕机器学习、人机交互、技术实践等前沿技术话题展开深度分享。除了场内的精彩演讲,场外还有专门为AI爱好者搭建的动手实验室和科技体验区,这一切都让本次大会亮点十足。
uSens凌感中国研发中心高级研究员王晓涛在人机交互分会场做了《VR/AR中的交互技术》主题演讲。演讲结束后,记者采访到了他,请他分享关于手势交互领域的精彩观点。
人机交互往往与硬件变革相伴相生
谈到VR和AR,大多数人的***印象就是那些虚拟可视化设备,例如Oculus rift、Htc vive、PSVR、Hololens等。体验过的人都知道,这些设备的确给人们带来了很奇幻的感觉,并且佩戴越来越轻便,分辨率越来越高,内容越来越丰富。可以说VR/AR设备已经日趋成熟,面向消费者并且开始普及。王晓涛指出,如今VR和AR发展外界看来似乎开始放缓,事实从业内看,从未停止,而且都是关键技术的推进。整个行业不仅仅依靠硬件设备,还需要很多其他的东西来支撑和完善。
王晓涛告诉记者,当人们回顾一下历史就会发现,每次硬件产品重大变革都伴随着革新的人机交互方案,并且趋势都是向着更自然的方向发展。例如***台台式机Programma 键盘做输入,纸带做输出;***款消费级PC Macintosh, 鼠标做输入,GUI界面输出;大家都熟悉的***款智能手机 iPhone, 多点触控输入IOS界面输出。“可以看出,随着硬件产品的换代,交互方式也越来越方便,好用,并且也容易学习,不在需要熟记各种命令。那么VR/AR想要成为新一代革命性的硬件产品,也需要全新的人机交互方式。”
那么在人机交互的发展史上,有哪些里程碑式的产品呢?王晓涛列举了三款重要的产品。一是1965年的***台台式机(开创了商业机普及),引入卡片为输出,键盘输入;二是1984年Macintosh(开创了PC消费品市场普及),引入GUI输出,鼠标输入(继LISA后第二部使用图形用户界面,***应用到个人电脑,systemSoftware,MacOS);三是2007年iPhone(开创了智能手机消费品普及),引入multi-touch和iOS系统。
前景看好的手势交互
据了解,VR/AR目前的交互方式可以说五花八门,各个厂商都在做各种尝试和探索。王晓涛介绍到,有基于手持设备的手柄、操作杆的厂商如Oculus、 htc vivi、 psvr,也有基于触摸板的Gear vr,还有基于磁电传感器手套的诺亦腾、基于眼球追踪的、基于语音识别的,以及基于裸手手势的各类厂商。他认为每一类方式都有自己的特点,都有适合的场景和适用的内容,尤其是有的适用于VR环境,有的适用于AR环境。
在VR环境中,由于场景都是虚拟出来的,所以各种手持设备、传感器等并不影响使用的感官,人们虽然看不到手里拿着东西,但是可以习惯性的像使用鼠标一样使用这些交互工具。所以,在VR环境中,基于设备的交互方式目前处于主导地位,一方面是无论是在精度还是在稳定性上基于物理元件的方式更优秀,实现起来也相对简单;另一方面也是各大厂商同时推出交互设备与匹配的交互内容,即卖硬件又卖软件,有利润驱动。
他告诉记者,在VR交互中,另一种方式就是手势交互,原因在于,即使在虚拟世界里,人们也要追求自然、便捷、灵活的方案,因为从PC到智能手机,人们已经几乎丢掉了鼠标和键盘,在新一代产品里不应该再捡起附加设备。但客观的讲,自然手势交互还处于技术攻关阶段,还有很大多问题需要解决。但毋庸置疑,手势交互更自然,对VR沉浸感来说,是至关重要的一个方面,在VR中更有带入感,在大众化市场中更有前景
不同于VR,在AR环境中,手是看得到的,并且AR中有手的真实使用需求,这导致AR环境的交互方式不能使用手柄之类的设备,更趋向于不影响手的真实功能的交互方案。那么可选的就只有手势、眼球、语音、脑电肌电这些稍微黑一点的科技,这里面语音识别已经很成熟了,但是通过对话的方式来拖动某个东西是很违和的。那么来看,从技术成熟度,适用范围来看,手势交互更有优势。Hololens选择的就是手势的方案,其他的方式可以作为辅助,使得AR的交互更立体、便捷。“可以看到,手势交互在VR中有前途,在AR中有地位,随着技术的成熟,将会得到越来越多的应用。”
精准识别手势是个技术活!
手势交互并不是简单地识别几种固定的手势,也不是跟踪五个指尖,而是要在看得到的情况下,能够实时识别出当前手的状态,例如手型是什么,角度如何,距离有多远等等。
王晓涛透露,目前流行的是通过骨骼来模型化手,就包括关节点、骨骼的长度、骨骼间的角度。常用的量化模型有NYU的14个关节点模型、帝国理工的16关节点模型、MSRA21个关节点模型等等。不同方式表达量化的精度是不一样的,通常用多少个自由度来刻画手模型的精度,比如微软的26个自由度。
“手势交互关键技术基本包括,检测、跟踪、回归、手模型优化一套整体的流程。”王晓涛举例道,首先设备要能找到手的位置,识别出手的关节点,使得串联起来的关节点像一只手;其次找到手之后,需要确定各个关节的位置。他介绍到,方法有基于点云匹配的,通过球模型或者球棍模型与检测到的手的点云匹配;也有直接回归坐标点的,每个点有两维或者三维,按顺序给出所有点的预测值。
他还特别强调关于手的结构约束。这个技术主要有两类,一类是分段式的,先得到各个关节点,通过后处理的方式使得铰接在一起的关节点得到的手不是畸形的;另一类是end-to-end的,将手的模型约束直接融入到关节点回归中,或者直接回归3D手的pose等。他强调,这一环节十分重要,起着很明显的作用。
手势交互正处在***的发展机遇
当然,王晓涛也坦言,到目前为止手势交互目前还有很多问题亟待解决,例如需要提高识别的精度与稳定性,算法万年不变的话题。他举了一个例子,在VR/AR环境中,人们要做到实时,不能占用太多计算资源,有可能还是在移动端运行,并且算法是deep learning这种,算法的优化加速面临极大的挑战。
除此之外还需要解决视觉盲区问题、反馈问题等。以反馈问题为例,在AR/VR中手势交互的反馈比较麻烦,人们没有触觉体验,目前有通过设备提供触碰感的,还有多元反馈机制,例如通过声音等元素来营造气氛。也正因如此,手势交互还有很长的路要走。
王晓涛告诉记者,手势识别已经发展了这么多年,但是之前一直没有普及开,以至于很多人开始怀疑这个***的真伪性,这是为什么呢?因为以往的需求是假想出来的,例如希望用手势代替鼠标,代替遥控器,但是终究是可用可不用,并且有可能还不好用。一方面之前由于技术和计算能力的问题,手势性能比鼠标遥控器差,另一方面还是应用场景需求度低,体现不出来手势的优势。
“但VR和AR,对手势来说,恰恰是一个好的时机,首先像我们前面说的手势是AR/VR交互中优先级很高的交互方案,另外现在移动设备的计算能力也变强了,可以说,与VR/AR结合,是手势发展***的机会。”王晓涛十分肯定这一点。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】