搜狗获Cityscapes评测世界冠军,多项指标刷新世界纪录

企业动态
近日,来自搜狗公司的视觉研究团队,在国际自动驾驶领域权威评测集Cityscapes上获得实例分割评测的第⼀名,击败了Nvidia、Facebook、商汤等几十支强劲的国际科研机构,并一举刷新了世界记录,代表中国向全世界彰显了我们出色的技术实力。

 近日,来自搜狗公司的视觉研究团队,在国际自动驾驶领域权威评测集Cityscapes上获得实例分割评测的第⼀名,击败了Nvidia、Facebook、商汤等几十支强劲的国际科研机构,并一举刷新了世界记录,代表中国向全世界彰显了我们出色的技术实力。

这是今年搜狗继CVPR大会上夺得WAD自动驾驶识别挑战赛冠军之后,所摘得的又一桂冠。短期内连夺两项世界冠军,充分证明了搜狗在计算机视觉上已经位列行业领先地位。

Cityscapes评测数据集是什么?

众所周知,人工智能技术在自动驾驶领域有着非常广阔的市场空间,也是最被人们所看好的一大应用前景。而如何决定AI判断识别路况信息的理解能力,就取决于它的评测数据集水准。

Cityscapes评测数据集在2015年由奔驰公司推动发布,是目前公认的自动驾驶领域内***权威性和专业性的图像语义分割评测集之一,其关注真实场景下的城区道路环境理解,任务难度更⾼,且更贴近于自动驾驶等热门需求。在Cityscapes评测数据集之中,共分为像素分割和实例分割两个子任务,其中相较于像素分割,实例分割的难度要更大,也是计算机视觉领域最重要、***挑战的任务之一。

如何让机器变得更加“聪明”,具备足够的学习能力,是所有人工智能研发时的***难题,更是国内外科技企业争相研究的自动驾驶技术。能够在Cityscapes评测数据集中脱颖而出,打破世界纪录,意味着搜狗已经具备了强大的AI技术硬实力。

实例分割,自动驾驶的曙光已现

实例分割是一个很综合的问题,融合了目标检测、图像分割、图像分类等多种AI技术。顾名思义,像素级别的语义分割,是对图像中的每个像素都划分出对应的类别,即实现像素级别的分类;⽽分类的具体对象,即为实例。那么实例分割不仅要进行像素级别的分类,还需要在具体的类别基础上区别开不同的实例。实例分割对自驾汽车、机器人、视频监控等领域,都有着举足轻重的重要价值,获得全世界科学研发界的密切关注。

Cityscapes评测集包含50个城市不同情况下的街景,以及30类物体标注。此次搜狗参加的实例场景图像语义分割评测,类别对象多、场景复杂,挑战难度非常大。面对复杂的实例环境,搜狗所展示的技术十分巧妙。

过去,我们常常会把AI的关注点放在单一的车道上,而实际的路况信息乃是十分复杂且多变的,必须要求驾驶员有足够的“眼观六路耳听八方”的能力,用纵览全局的目光来观察整个路况。基于这个原因,搜狗通过引⼊全局编码模块,来显著提升了全局信息在实例分割中的影响。全局编码模块可以很好地捕获图像中的语义信息,并选择性地突出显示与实例相关联的特征映射,从而提升准确率。

另一方面,在训练过程中如果只是简单地引⼊每个像素的分割损失,而不是着重使⽤场景的全局上下⽂信息,会导致严重的类间不平衡问题。针对这一现状,搜狗引入了一种全局实例例编码损失函数GIE-loss。这种损失函数会预测场景中出现的实例类别,来加强网络学习全局语义信息的能⼒。不像传统的针对每个像素的损失函数,GIE-loss对每个物体,不管⼤大⼩小都是同等对待的,在使用这个损失函数后,⼩物体的分割效果明显变好。

(对比图1)

(对比图2)

(对比图3)

通过上面的结果对比图,我们可以清晰的看出全局编码模块的引⼊,彻底改变了实例分割传统算法中远近物体不能兼顾的缺点,近处物体可以识别的很好,远处小物体的分割效果也提升了非常多,使得最终的AP100指标远超其他队伍。

截至目前,Cityscapes评测吸引了近百支队伍参赛,包括Facebook、香港中⽂大学、商汤和NVIDIA(英伟达)等众多国内外优秀创新企业和***学术机构参加。值得一提的是,在过去的近两年时间里,商汤、港中文团队与NVIDIA(英伟达)几乎包揽了所有图像分割评测的冠军。而***参赛的搜狗团队,各项评测指标均远超其他队伍,打破了世界纪录,以无可争议的成绩拿下了***名。

搜狗视觉研究团队通过不断地算法积累和迭代, 建立了一套高效易用的通用检测分割框架,可以针对任务快速迁移算法模型,达到实际应用需求。 CVPR2018 WAD检测任务和本次实例分割任务所用模型基本一致,验证了模型的高效易用性。同时团队最近也做了一些简单的实验, 在少量代码改动的情况下,仅仅训练几个小时,便可以在一些著名的评测数据集上达到top的成绩。

聚焦“自然交互+知识计算”,将成就搜狗人工智能的未来之路

人工智能的***范围很大,而搜狗选择的突破口很小。以点带面,正是王小川为搜狗所规划的未来道路。

一直以来,搜狗都在坚持着“自然交互+知识计算”的人工智能核心战略,专注于自然交互领域展开发力。在语音领域,拥有充足真实语料数据优势的搜狗,把语音识别与人机对话相结合,发布了知音引擎,并推出了全球首款商用AI同传。除了单独的语音识别“听的能力”之外,搜狗还向着合成方向的“说的能力”展开突破,能够自动学习的AI机器兼具了听、说、翻译等多种能力,位居业界领先地位。多模态输入,已成为了搜狗语音交互的研发重心。

而在视觉领域,搜狗也实现了AI技术的不断突破,让机器的自然交互变得更加全面。2017年乌镇互联网大会上,搜狗发布了行业首款唇语识别技术,实现了视觉与听觉的***结合,帮助机器以更加多元化的维度来理解用户的诉求。在车载、智能家居等垂直场景下,准确率高达90%。本次在Cityscapes的实例场景图像语义分割评测中大获全胜,更是体现了搜狗对于视觉识别的技术积累,帮助机器进一步提升各项感知能力的交互水准。

连续获得多项国际比赛冠军的搜狗,已经证明了自己在人工智能领域的充足技术底蕴。我们有理由相信,在未来的AI赛道上,占据领先优势的搜狗一定能取得更加出色的成绩,用实际的AI产品来切身改善用户的交互体验。

责任编辑:张燕妮 来源: 互联网
相关推荐

2018-07-03 09:37:12

量子计算机编码

2011-03-23 10:20:25

中兴光通信100G

2019-10-15 09:07:30

AI 数据人工智能

2024-06-03 12:03:56

2021-10-18 14:10:09

天府杯/网络安全

2021-04-25 21:26:47

量子芯片U盘

2011-11-17 13:13:18

戴尔服务器

2014-10-23 16:22:05

华为

2014-11-03 16:07:03

华为服务器

2020-05-21 10:26:35

数据库

2020-05-21 10:06:23

支付宝OceanBaseTPC-C

2015-03-19 10:16:29

2017-11-14 12:27:44

ThinkSystem

2016-06-20 17:55:18

戴尔闪存

2019-02-21 22:25:18

曙光

2009-06-09 09:31:54

魔兽世界吉尼斯世界纪录

2016-09-02 14:53:11

戴尔

2022-04-08 08:11:28

Python代码

2013-09-18 15:30:42

华为服务器华为RH5885 V2
点赞
收藏

51CTO技术栈公众号