腾讯优图：视觉AI到底发展到了什么地步？-51CTO.COM

[[204589]]

随着 AI 的发展，计算机视觉技术逐渐拥有了更广泛的应用，人脸识别，物体检测等等技术更是在安防、无人车等领域起着至关重要的作用。来自腾讯优图实验室的杰出科学家贾佳亚先生在 2017 年 6 月 21 日中国深圳“云 + 未来”峰会上发表了关于 AI 视觉技术的演讲，为听众展示了优图实验室先进的AI视觉系统。以下为演讲内容

AI 这个词从进入大家的视野到变得巷闻皆知才用了两年时间，所以 AI 在这个时间发展过程中有点像突然发现的东西，用什么来比喻它?我会用哈利波特的隐形斗篷来比喻它，这个隐星斗篷就是当你穿上它的时候，你会发现空无一人，但是你把隐形斗篷取下来，你发现原来里面躲了一个庞然大物。

[[204590]]

其实 AI 视觉技术就是这样一个过程，AI 的发展从最开始到现在经历了几十年的发展，所以到今天这个规模绝对不是一朝一夕能够形成的。所以我从隐性斗篷的例子来从头看看到底怎么理解 AI 技术。

我们在很多的小说、电影、科幻读物里都有很多拟人化的机器人或者产物，其中有四个最重要的功能，第一是看，第二是听，第三是说，第四是动。当然不是所有东西都会动，但如果这是一个超级的智能产物一定会控制其他东西在动，自己不用动。当我今天想跟大家介绍 AI 的时候，我会专注在一个方向上，那就是看。为什么我们要去讲看这件事?我觉得还要从自然智能理解起。

自然智能不是 AI 智能的对立面，但是却是反方面的词。人工智能是人创造的，自然智能是从远古时代演化到现在的，我们从自然智能里学到很多东西，比如说看到自然智能的时候，我会想，我们有非常多的视网膜神经细胞，有柱状和椎装细胞但是我们有超过 40 亿以上的神经元会处理我们的视觉信息，相比之下，我们的触觉和听觉可能只有 8% 和 3% 的比例，这说明什么?说明我们这个世界太复杂了，当我们从第一天人类开始去理解这个世界的时候，我们就有足够多的神经元或者处理单元去理解这个世界，所以“看”是我们理解这个世界最重要的部分。

我们做到了什么?

视觉的 AI 可以运用在很多的游戏里面，比如说体感游戏或者是增强现实游戏，满大街去找小精灵的游戏就是重要的体现。除了视觉娱乐之外还有很大用处，比如解决在监控、安防或者需要大量人手去观察视频和图像的分为之内，我们从几百人减成几个人，这也是视觉 AI 发挥的作用。

[[204591]]

腾讯是一个非常大的社交网络公司，里面有各种各样的媒体或者软件帮大家做交流，比如我有一个好的照片想给大家看看，是不是能够达到把人年轻十岁的效果呢?这个事情是可以做到了，甚至于如果想把自己变一个性别，从男生变成女生，那也很容易，甚至不用去医院了。这是在相册上或者是在手机端产生的变化，除此之外还有两块非常大的部分，一个是智能医疗，如何能够让一个机器智能读懂所有医疗的片，比如说 CT 片、MRI 片，这是非常重要的部分。还有自动驾驶，我们能不能辅助驾驶、自动驾驶的功能加入在视觉 AI 里面。

这些 AI 的技术代表在这个领域飞速发展的进程，但是与此同时，在不同的途径、不同的视频或者不同的专家给大家介绍各种方法的时候会说，我们的技术已经做到多么强、多么好，我在这里更希望通过科学家的角度跟大家介绍，我们的视觉 AI 角度到底发展到什么地步。

首先可以超过 1000 个类别的上亿张图像的分类理解。

当我有一张图像的时候，人和机器都可以告诉你这张图像是什么，这是一头牛还是一朵花，有的时候你可以想象机器甚至做得比人更出色，我三岁的女儿经常跟我说，爸爸，我看到那边有非常漂亮的蝴蝶。我就纠正她，宝贝，那不是蝴蝶，那是蛾子。但是我的宝贝说，这个蛾子比蝴蝶还漂亮，肯定是蝴蝶。

说明我们在图像理解上有一个过程，我需要理解它的含义得到一个结果，但是在机器学习的时候，甚至可以达到比成年人更高的境界，我们可以细分到山丘、山陵的区别，而超越人的理解。科学家已经不满足于这个问题，这个问题被认为已经在这个领域解决，下一个要解决的是检测问题。当我们有一张图，我希望不但知道这个图的整体表达是什么，还要知道这个图里哪个地方是车，哪个地方是路面，哪个地方是人，这是检测过程。由于现在有强大的计算资源和计算能力，我们可以超过五亿个品种的检测，这是视觉 AI 的另外一个可以达到的目标。

除此之外，科学家们想，当我们能检测到一些物体的时候，能不能把细致度做得更深?比如说颗粒度更深的每个像素、每个点，我是不是能知道这个点是属于马路的，属于人还是属于车的，这是远远超越于之前问题的更加进一步的推广问题。所以我们管它叫做语义分割，现在可以超过总数四千亿像素级别的多图图像分割，这是这几年整个领域产生的巨大推进作用和研究成果，能够达到的效果。除此之外更加熟悉的是对人脸的匹配查询，可以超过一亿张人脸匹配查询，找到你想要的人，你问问自己，能不能认识一亿个人?认识一百个人，我就很开心了，这在电脑上是远远超越了人。

[[204593]]

在之前五到十年的时候，我在学校的团队还会做一些有意思的研究：我们当时想，如果看到这样一张模糊的图片你会做什么事情?你看到一张模糊图像会做什么事情?可能大家要做的就是把它删除，为什么?因为这张图片模糊了，已经没有用了，但是对我们科学家而言，是非常珍贵的资源，因为通过这张图像我们发掘出一些人类看不到的东西。

[[204594]]

为大家举一个有趣的例子，比如在这张图像里，我们是在一个高速行进的车上，周围的环境是容易被模糊的，当我们理解环境的时候你发现，车牌或者路标已经被模糊掉，在这张图上，在这个图标上看着公路的信息，但是左边小的是什么东西?左边路牌上的数字是什么东西呢?之前大学里的团队经过五到十年的研究，把这些信息充分理解出来，最后通过我们的技术手段，能够看到最后这是在美国 101 公路上的场景，我们可以超越人类的图像模糊。

还有一个东西，我们希望十年之后出现家具机器人，什么叫家具机器人?就是你希望他能帮你洗衣服、洗碗、做饭，甚至带孩子，但是要达到这个智能机器人，怎么样才能做到这一步?其中重要的就是如何把自然语言和自然图像结合起来，也就是两者的充分结合。所以我们在之前有一系列的研究，是当你看到一张图像的时候，我的人来问一个问题，是什么放在了这个工作间的台子上，电脑看到通过你这句话，分析是什么意思，然后再去寻找在这张图像上是问了什么问题，最后把图像上重要的位置找到之后反馈回来，得到一个结果，这个结果就是船，这就是说这个答案是对的。

[[204595]]

这个说明现在电脑可以结合自然语言，我说的话和看到的场景可以结合起来，这是一个非常了不起的进步。正是因为有这个进步，我相信令到家具机器人的理想在十年之内能够变为现实。

我们还可以做到什么?

可能有讲座介绍说，幸亏 AI 达到的程度还没有人那么高，因为人会创造，AI 不会创造。我想跟大家说，其实这句话是不对的，电脑也会创造，而且创造出来的种类和试样，很多时候是让我们惊叹的，在以往知识库里是找不到这些模组的，这就是创造的功能，视觉 AI 已经可以实现创造。

[[204596]]

比如看这两幅图，看在座各位认为右边这张图是电脑画的?真理永远掌握在少数人手里，右边这张图确实是电脑画的，电脑用铅笔画出了整体轮廓的表达、阴影的表达，达到了非常高的层次，人类需要长期训练才能画出，但是我们画出这张图只用了 0.1 秒，就是它的创造过程，这是非常有趣的事情。

我大学的团队在去年为了去理解这个非常复杂的场景，创造了全世界最像素级的分割技术，做场景理解分析。

[[204597]]

这个例子可以看到车是一个颜色，因为我识别出来这是车，所以是蓝色，旁边的树，我识别出是树，所以标成绿色。我们在去年实现了在大规模场景的多复杂环境下的内容分析，这是去年做的事情。今年我们不满足这样一个结果，我说我们还能做什么?然后我的团队开始在今年做了另外一件让大家激动的事情，我们实现了到迄今为止最准确的道路上的像素级语义分割技术，在已知的论文里面，我们这个技术远远高出第二名，直接到每秒 30 侦的运算速度，没有改变任何的硬件资源，我们加速了一百倍。

AI 视觉技术的社会价值除了我刚才跟大家讲的商业价值或者学术价值之外，我今天还有另外一个内容。我想跟大家讲讲优图 AI 所产生的社会价值。有一个优图跟腾讯的公益部门以及腾讯云、腾讯互联网 + 的部门合作，我们开创了一个新的活动，这个活动叫做天眼。

大家有没有看过这部《亲爱的》?讲述的就是现在有很多很多的家庭，家里的孩子被拐卖走失，这些父母组成了一个团体，他们希望通过这个团体找寻自己的孩子，这就是 2014 年这部电影上映反映的严重现实，孩子的丢失也许是社会的一小部分现象，但是这个现象确实是存在的。所以可以想像，在这样一个环境下，可以有一个大概的估计，但是现在走失的现象在统计意义上而言非常巨大，每个城市这样的现象很少，但是因为中国人口多，在这么大的中国人口的基数上，我们能够把这个比例一点点的上升，这也是我们能贡献的力量。虽然我们有了各种各样的途径，有微博打拐，有大家贡献的力量来找寻，但是贡献率依然是 0。

2015 年，优图团队跟腾讯公益部门和腾讯云和腾讯互联网 + 的单位一起开始加入了“天眼”计划，希望通过优图的技术积累，帮助社会实现社会价值，而不仅仅是商业价值，因为这对我们而言是一件相对比较容易的事情，但是社会价值如何体现在 AI 上?

于是我们加入了这个公益计划，当时在上海的小伙伴们拿到这个计划的时候非常兴奋，他们觉得终于有一天，他们坐在电脑前面也可以像蜘蛛侠一样出去救人。他们做了很多评测，发现我们在人脸识别率上只有 40%，这个数字让我们的小伙伴非常惊讶，发现原来问题这么难，不是我们拿到一张图做一个寻人就可以把人找回来。主要有以下三点困难：

第一个是场景

我们有非常复杂的场景，有城市，有农村，有山林，有不同区域，甚至当我找回这样一个失踪人口的时候，他的发型、衣着、轮廓改变都是复杂因素。

第二是年龄

很多的失踪人口找回来的时候，他们可能在外面已经漂流了几年的时间甚至十年时间，这是一个非常长的时间段，所以从我们的面容上看，他们改变了很多，从轮廓、皱纹、皮肤的粗糙程度，这都是对我们实用算法是非常大的挑战。

第三需要具备有亿级人脸的检索能力

当我拿到一张检索照片的时候，是不是能够通过实时寻找对比，找到这个人出来。

这三大挑战是我当时面对的，但是好在我们优图的小伙伴们并没有放弃，他们觉得这件事情既然做了就要做到底，而且要做好。所以我们在经历一系列的，超过一年多的研究，把 Megaface 的准确率从 40% 提升到 83.29%，这代表了我们可以在亿级人脸检索上达到毫秒的速度，把成功率从之前的不到 50% 提高到 99%。我们立项之后，在短短三个月时间之内，就开始用在福建省公安一起合作，做了网上在线系统找回人群。

[[204598]]

2017 年 3 月份的时候，福建省公安厅接到一个群众电话，他们在小学边上找到一个老奶奶，神智不清语言也不通，把他接到公安局以后，通过我们的线上人脸比对系统，发现可能是这个奶奶失踪了，最后我们发现，家人为了防止她走失，在公安系统已经把她挂上号，最后通过这个系统把这个老人找了回来。

我们上线这个系统短短三个月时间，在整个福建省公安部门的帮助下，实现了找回人数超过 120 人，才三个月时间。这样的成效是高过以往通过群众电话，再去通过大海捞针式的访问拿到结果的过程，所以整个福建系统“牵挂你”是有一个过程的，我们发上名单照片，通过群众找到某一个人群的时候，拍张照片，最后在数据库里做比对，然后把这个人找回来，这样成功的案例已经超过一百起，这是非常振奋人心的，而且也是很有意义的。

除此之外，我们希望技术不仅仅是帮到这样一些走失的人，我们甚至可以走得更广一点，所以我们这几年做了一个“万象鉴黄”的全球儿童网络保护行动，整个优图团队开始贡献对成人图片的检测，我们发现准确率在大部分上线系统上可以超过 99%，也就是可以实现对儿童在网络上的保护，防止这些儿童受到欺凌欺骗，这样的事情是我们团队的小伙伴最愿意做的事情之一。

结语

AI 就是一种工具，AI 的出现可能会令一些人失去自己的工作，但是 AI 确实便利了我们这个社会，使得我们这个社会更加容易和谐，做得更好。当我们发现一些不好的事实的时候，AI 这个系统能够准确判别，打击犯罪，这是一种工具，就像是一把刀一样，你切菜是好的工具，但是伤害人的时候是一个坏的工具。AI 无所谓好和坏，但是好的部分需要我们去弘扬，发光广大。最后我想说，每一个技术人员虽然都坐在电脑前面，大家都认为我们是电脑高手，但是我们每个人都有一颗蜘蛛侠的心，我们希望自己有一天不上街也能够帮助人们，打击犯罪。