阿里斩获AI领域“奥斯卡”四项冠军，AI可精准预测视频目标位置-阿里的ai

近日，全球计算机视觉顶会CVPR 2020公布了各大挑战赛结果，阿里巴巴获得四项比赛的世界冠军，其中，在难度最高的DAVIS挑战赛中，阿里提出了可以精准预测视频目标位置的方法，并且首次以超过80分的成绩夺得第一名。

CVPR是AI领域规模最大的会议，被誉为计算机视觉领域“奥斯卡”，其覆盖范围涵盖计算机视觉领域的前瞻学术研究和工业应用，会议的研究成果体现了视觉AI领域研究的趋势。由于视频会议、直播等应用逐渐普及，今年顶级科技公司的研究成果逐步从图像延伸到了视频领域，涵盖视频压缩、视频分割、三维视觉等领域。

和图像识别不同，AI分析理解视频的技术门槛更高，长期以来，业界在视频AI技术的研究上鲜有重大突破。以CVPR会议难度最高的比赛之一DAVIS（ Densely Annotated Video Segmentation）为例，该比赛需要参赛团队精准处理复杂视频中物体快速运动、外观变化、遮挡等信息，过去几年，全球顶级科技在该比赛中的成绩从未突破80分。

据介绍，阿里参加的四项比赛均为视频技术领域。在DAVIS挑战赛中，阿里率先实现了突破，以 84.1 的分数获得了第一名，比去年的第一名提高了7.4分。

阿里AI以84.1分的成绩获得DAVIS比赛第一名

公开资料显示，阿里提供了一种全新的空间约束方法，打破了传统STM方法缺乏时序性的瓶颈，可以让系统基于视频前一帧画面预测目标物体下一帧的位置；此外，阿里还引入了语义分割中的精细化分割微调模块，大幅提高了分割的精细程度。最终，精准识别动态目标的轮廓边界，并且与背景进行分离，实现像素级目标分割。

阿里AI可以基于视频前一帧画面精准预测目标物体下一帧的位置

业内人士普遍认为，视频分割技术将成为线上会议、直播、自动驾驶、影视制作等场景的标配。例如直播场景使用阿里AI算法，可以实现一秒钟替换背景；在自动驾驶中，视频分割也是自动驾驶系统识别障碍物的关键技术。

据介绍，除了获得四项比赛冠军，阿里巴巴还有17篇论文入选CVPR 2020，其中涵盖一篇自动驾驶领域的研究成果，该论文提出了一个通用、高性能的自动驾驶检测器，首次实现 3D 物体检测精度与速度的兼得，有效提升自动驾驶系统安全性能。

目前，阿里巴巴视觉AI技术已在全球率先实现大规模落地。例如，城市大脑、拍立淘、优酷视频等阿里巴巴集团内部业务场景均已大规模使用该技术；阿里巴巴CT影像AI已经服务全球600多家医疗机构，疫情期间已完成50余万例病例临床诊断。