搜狗获Cityscapes评测世界冠军，多项指标刷新世界纪录-51CTO.COM

近日，来自搜狗公司的视觉研究团队，在国际自动驾驶领域权威评测集Cityscapes上获得实例分割评测的第⼀名，击败了Nvidia、Facebook、商汤等几十支强劲的国际科研机构，并一举刷新了世界记录，代表中国向全世界彰显了我们出色的技术实力。

这是今年搜狗继CVPR大会上夺得WAD自动驾驶识别挑战赛冠军之后，所摘得的又一桂冠。短期内连夺两项世界冠军，充分证明了搜狗在计算机视觉上已经位列行业领先地位。

Cityscapes评测数据集是什么？

众所周知，人工智能技术在自动驾驶领域有着非常广阔的市场空间，也是最被人们所看好的一大应用前景。而如何决定AI判断识别路况信息的理解能力，就取决于它的评测数据集水准。

Cityscapes评测数据集在2015年由奔驰公司推动发布，是目前公认的自动驾驶领域内***权威性和专业性的图像语义分割评测集之一，其关注真实场景下的城区道路环境理解，任务难度更⾼，且更贴近于自动驾驶等热门需求。在Cityscapes评测数据集之中，共分为像素分割和实例分割两个子任务，其中相较于像素分割，实例分割的难度要更大，也是计算机视觉领域最重要、***挑战的任务之一。

如何让机器变得更加“聪明”，具备足够的学习能力，是所有人工智能研发时的***难题，更是国内外科技企业争相研究的自动驾驶技术。能够在Cityscapes评测数据集中脱颖而出，打破世界纪录，意味着搜狗已经具备了强大的AI技术硬实力。

实例分割，自动驾驶的曙光已现

实例分割是一个很综合的问题，融合了目标检测、图像分割、图像分类等多种AI技术。顾名思义，像素级别的语义分割，是对图像中的每个像素都划分出对应的类别，即实现像素级别的分类；⽽分类的具体对象，即为实例。那么实例分割不仅要进行像素级别的分类，还需要在具体的类别基础上区别开不同的实例。实例分割对自驾汽车、机器人、视频监控等领域，都有着举足轻重的重要价值，获得全世界科学研发界的密切关注。

Cityscapes评测集包含50个城市不同情况下的街景，以及30类物体标注。此次搜狗参加的实例场景图像语义分割评测，类别对象多、场景复杂，挑战难度非常大。面对复杂的实例环境，搜狗所展示的技术十分巧妙。

过去，我们常常会把AI的关注点放在单一的车道上，而实际的路况信息乃是十分复杂且多变的，必须要求驾驶员有足够的“眼观六路耳听八方”的能力，用纵览全局的目光来观察整个路况。基于这个原因，搜狗通过引⼊全局编码模块，来显著提升了全局信息在实例分割中的影响。全局编码模块可以很好地捕获图像中的语义信息，并选择性地突出显示与实例相关联的特征映射，从而提升准确率。

另一方面，在训练过程中如果只是简单地引⼊每个像素的分割损失，而不是着重使⽤场景的全局上下⽂信息，会导致严重的类间不平衡问题。针对这一现状，搜狗引入了一种全局实例例编码损失函数GIE-loss。这种损失函数会预测场景中出现的实例类别，来加强网络学习全局语义信息的能⼒。不像传统的针对每个像素的损失函数，GIE-loss对每个物体，不管⼤大⼩小都是同等对待的，在使用这个损失函数后，⼩物体的分割效果明显变好。

（对比图1）

（对比图2）

（对比图3）

通过上面的结果对比图，我们可以清晰的看出全局编码模块的引⼊，彻底改变了实例分割传统算法中远近物体不能兼顾的缺点，近处物体可以识别的很好，远处小物体的分割效果也提升了非常多，使得最终的AP100指标远超其他队伍。

截至目前，Cityscapes评测吸引了近百支队伍参赛，包括Facebook、香港中⽂大学、商汤和NVIDIA(英伟达)等众多国内外优秀创新企业和***学术机构参加。值得一提的是，在过去的近两年时间里，商汤、港中文团队与NVIDIA(英伟达)几乎包揽了所有图像分割评测的冠军。而***参赛的搜狗团队，各项评测指标均远超其他队伍，打破了世界纪录，以无可争议的成绩拿下了***名。

搜狗视觉研究团队通过不断地算法积累和迭代，建立了一套高效易用的通用检测分割框架，可以针对任务快速迁移算法模型，达到实际应用需求。 CVPR2018 WAD检测任务和本次实例分割任务所用模型基本一致，验证了模型的高效易用性。同时团队最近也做了一些简单的实验，在少量代码改动的情况下，仅仅训练几个小时，便可以在一些著名的评测数据集上达到top的成绩。

聚焦“自然交互+知识计算”，将成就搜狗人工智能的未来之路

人工智能的***范围很大，而搜狗选择的突破口很小。以点带面，正是王小川为搜狗所规划的未来道路。

一直以来，搜狗都在坚持着“自然交互+知识计算”的人工智能核心战略，专注于自然交互领域展开发力。在语音领域，拥有充足真实语料数据优势的搜狗，把语音识别与人机对话相结合，发布了知音引擎，并推出了全球首款商用AI同传。除了单独的语音识别“听的能力”之外，搜狗还向着合成方向的“说的能力”展开突破，能够自动学习的AI机器兼具了听、说、翻译等多种能力，位居业界领先地位。多模态输入，已成为了搜狗语音交互的研发重心。

而在视觉领域，搜狗也实现了AI技术的不断突破，让机器的自然交互变得更加全面。2017年乌镇互联网大会上，搜狗发布了行业首款唇语识别技术，实现了视觉与听觉的***结合，帮助机器以更加多元化的维度来理解用户的诉求。在车载、智能家居等垂直场景下，准确率高达90%。本次在Cityscapes的实例场景图像语义分割评测中大获全胜，更是体现了搜狗对于视觉识别的技术积累，帮助机器进一步提升各项感知能力的交互水准。

连续获得多项国际比赛冠军的搜狗，已经证明了自己在人工智能领域的充足技术底蕴。我们有理由相信，在未来的AI赛道上，占据领先优势的搜狗一定能取得更加出色的成绩，用实际的AI产品来切身改善用户的交互体验。