谈及计算机视觉领域的青年领袖,应该没有人比李飞飞更有代表性。作为斯坦福大学计算机系终身教授、Google Cloud首席科学家,李飞飞已然引领着学术界和产业界密切结合的探索新方向;而其作为一位女性的角色,又让她在人工智能多样性的探索中有着自己崭新且不同的视角。
在1月15日,未来论坛2017年会暨首届未来科学大奖颁奖典礼上,李飞飞作为人工智能领域的代表,发表了题为《视觉智能探索(The Quest for Visual Intelligent)》的主题演讲。演讲中,李飞飞从生物领域视觉的出现开始娓娓道来,进而阐述了计算机视觉探索过程中的四大视角:从孩子成长、大脑发展、技术从业者、教育者和母亲的角度,如何看待计算机视觉和人工智能。
演讲的最后一个部分,李飞飞提出了这样的问题:人工智能AI会改变世界,但这里真正的问题是,谁会改变AI?由此,她鼓励人工智能多样化的发展,让更多人更多元的文化参与到相关研究和产业中来,这样我们会看到技术发现上的大爆炸,使我们的世界变得更好。
(李飞飞在1月15日未来论坛2017年会上发表演讲 图 | 魏子敏)
以下内容基于李飞飞演讲(原演讲为英文),在不改变原意的情况下部分有删改:
今天我想跟大家分享一下计算机视觉方面最新的进展。
大概5亿年前,一些非常简单的生物生活在海洋中,捕获猎物、或者成为别人的食物。动物世界在当时非常简单,只有一些简单的物种存在,后来可能是出于偶然或者“上帝之手”,某种生物衍化出了第一双真正意义上的“眼睛”,这时的眼睛还很简单,就像我们最初最简单的照相机一样。
视觉的出现让生物世界大不一样:生物物种变得更加有活力和积极,捕猎者可以自发进攻,被捕猎的生物也会寻找更隐蔽的地方躲藏起来,避免自己成为它人的食物。
在很短的时间内,生物物种数量以惊人的速度增加,这也是视觉发展的一个结果——寒武纪大爆发。寒武纪大爆发之后,视觉就在动物中发挥着非常重要的作用,帮助它们寻找食物、帮助它们躲避敌人等。作为人,我们也是一样的,我们也用视觉支持我们的生活、我们的工作、我们的交流,让我们更好地了解世界。
人类社会还处于“失明”状态
事实上,在5亿年的进化之后,视觉已经成了我们人最重要的感知系统,我们的大脑中有一半的功能都是和视觉系统联系在一起的,动物们大概在5.3亿年前就看到了世界的光明,而对于我们的机器和计算机来说,整个世界还是黑暗一片。
尽管,目前到处都是监控器,但是当一个孩子在泳池溺水时,机器并不能提醒人类;目前每一分钟我们都有成百上千万小时的视频上传到YouTube或者Facebook的服务器上,但是我们仍然无法根据内容进行视频搜索;现在无人机可以在非常广的范围航行,但我们还无法根据无人机拍摄的图景标记出地球环境。总而言之,人类社会还处于“失明”状态,因为即便是最智能的机器,目前还没有视觉能力。
一个小目标:让计算机视觉为数字世界带来光明
作为计算机视觉的科学家,我们希望使用能够学习视觉世界的人工智能算法来识别图像和视频,我们有这样一个小目标,让计算机视觉为数字世界带来光明。
为了实现这样一个目标,首先我们要教计算机识别物品,也即世界最基本的组成部分。简单来说,给计算机看某个物品的训练图片:比如说我们可以把一只猫放到电脑中去,让它识别,然后我们会建立一些数学模型,人可以为猫写出一组公式来,让电脑识别它,这就是我们最初做的尝试。
我们想要把一个物品的不同部分分离出来,然后用非常简单的几何模型,数字模型,模拟模型来做“cat model”,很直接的把它变成一些圆形、三角形等,让电脑更好识别出放在它面前的是什么样的东西。
但是不同的猫在不同的图片中都有所不同,所以是否每次都要重新设计一个模型,让电脑能够识别出不同姿势的猫?为了让不同的猫都能被计算机识别出来,我们需要设计无数的模型。所以很多年来我们都想找到一个非常神奇的数字模型,它能够满足不同的猫的变形体。
孩子学习的启发:从大量数据中学习
八年前,一个很简单但重要的事情然我的思维得到了非常大的改变,那就是从孩子学习的过程中得到了灵感,因为我们并没有告诉一个孩子你要怎样认出一只猫,我们没告诉他猫是这个样子,哪里是三角形、圆形,他们只是靠经验学习。如果我们把孩子的眼睛看作一对最简单的生物照相机,他们每秒钟可以拍照5次,到3岁的时候,孩子们已经看过了成百上千万张世界各样的照片。所以,在我们找到更好的算法之前,我们需要给计算机进行像孩子们大脑发育时期一样的训练,也即是给计算机比目前领域内所使用得多得多的训练数据集。
我们花了很多时间来做这项研究。我和普林斯顿的同事一起在网络上找到了很多图片、很多数据,我们用了成百上千的图片构建这套系统。在三年的辛勤研究后,2009年我们终于做出了这样一个体系,其中包括1500万张图片和22000个不同的单词门类,都是我们日常见到的,从数量和质量来说,这个系统在计算机视觉和机器学习方面都是前所未有的,我们也因此在解决计算机物体识别这个问题上,比以往任何时候都准备充分。
从孩子的角度,我们获取了宝贵的第一课,从大量数据中学习。
来自大脑的灵感:卷积神经网络
这一图片库提供的丰富资料也完美适配卷积神经网络,这是最初由70、80年代代科学家们开拓的一个领域,其灵感来自大脑。
就像我们的大脑一样,卷积神经网络有成百上千个“类神经元”单位互相连接在一起。
这是一个非常经典的放在电脑上的神经系统,它大概有2400万个节点,1.4亿个参数和150亿个接口。
拥有这么庞大的信息的图片库,卷积神经网络算法以难以预料到的速度迅速发展了起来,也在物品识别上给我们带来了一些非常振奋人心的结果。
电脑告诉我们这张照片里有一只猫,这个猫在那里;这边是计算机告诉我们,小孩拿着他的泰迪熊。我们看到的物体都比较小,但电脑还是能够识别出来。
截止到目前,我们都一直专注于教电脑怎样识别物体,就像小孩学最简单的单词一样,这只是第一步,小孩很快会进入下一阶段的发展,那就是用句子交流。
所以要教电脑看懂图片,并且用一句话来描述它,我们其实需要用到神经系统,并且把神经系统推向一个高度,我们需要把视觉信息和文本信息结合起来,并且让它生成出一句具有意义的句子。
又经过一个阶段的努力研究,大概是一年半以前,我们成为了第一批通过深度学习让电脑在看到图片后告诉我们一些信息的实验室。
之后我们把图片获取的能力和视觉识别结合起来,我们发现针对一张图片,计算机其实可以生成很多句不同的话,能够提供给我们更多信息。这是我们最近的一项工作,大概是一年半之前出版发表的,电脑能够在一幅画中整理出非常多的句子。
我们也在近期提交了另外一篇论文,这篇论文中提到,计算机能够用算法生成出完整的自然段。
得到大脑的启发之后,我们发现深度学习的算法和公式能够帮助我们做一些视觉方面的检测,
这是从人脑这个视角得到的启发。
从技术从业者的视角:让真实世界从中获益
在神经网络和深度学习技术得到如此大的发展之后,我们也开始把焦点转向其它一些视觉领域,比如视频,我们在图片识别中学习到的东西能否复制到视频中去,能否让真实世界从中获益。
我的实验室和谷歌的团队合作,把1百万YouTube上500种运动相关的视频都抓取出来,它们分别属于不同的运动类别,我们希望有一天这样的技术能够帮助我们去管理、索引和搜索大量的视频和图片,能够在一个大数据的库存中进行图片和视频的搜索。
最近我们和Facebook进行了合作,进一步扩展了我们工作的范围,不仅仅能够让机器识别出视频中运动的类型,而且可以看看单个队员做了哪些事情。在NBA的篮球视频中,机器可以追踪每个队员在重要事件中(的表现),譬如三分球,罚球,可以看到队员在其中的表现。
我们拿了一些医院的安检视频,通过深度传感器的视频来进行分析应用,通过这样可以识别出人类的肢体活动,看看他们在环境下的行为是安全的还是危险的。
另外一项工作中,我们和欧洲一个火车站进行了合作,将成百上千个传感器安装在公共空间,利用这些计算机的传感器来追踪每个乘客的行动,有非常多的乘客每天、每周、每年在火车站穿梭,通过这样一种监测可以帮助优化火车站的空间,调整火车发车时段。
最近我们利用了深度学习和卷积神经网络、递归神经网络让机器学习如何预测人类行为的轨迹,这项工作的有趣之处在于能够把我们前边所讨论的问题结合在一起,这样,算法不仅有IQ——可以识别出人,而且它也有EQ,有情商——可以预测人的社会行为,譬如说机器人的行为:机器人不应该干扰人的行为,或者是机器人在空间行走时不能打破东西。
我们利用所有这些技术和现实中的情况进行合作,现在我们和斯坦福医院合作,部署相关技术,可以提高他们工作流程的绩效、洗手的习惯,在老人的家庭中也可以对他们进行类似的监测。
从技术从业者的视角看到计算机视觉算法的发展,真的让我感到特别兴奋,它能够帮助我们解决现实世界的问题。
这是一个技术从业者的视角。
从教育者和母亲的视角:AI需要多样化
5亿年前,动物和视觉面临的挑战是存活下来,而现在机器视觉和AI所面临的挑战就是让人类能够繁荣,永远持续下去。作为技术从业者我们要问,AI是否会成为一种摧毁力?还是能给我们带来更好的世界?
我一直在思考这个问题,已经思考很久了,最近我突然顿悟,AI的世界是位于那些创造、开发和使用AI的人的手中。
人工智能AI会改变世界,但这里真正的问题是,谁会改变AI。
大家都知道,世界各地都是缺乏多样性的,包括美国的硅谷,中国、欧洲,还有很多其它区域都缺乏多样性,在美国学术界只有25%的计算机专业人士是女性,不到15%的美国领先工程学校的教职员工是女性,对于少数族裔来说,女性的代表就更少了,产业界也面临着同样的情况。这里不仅涉及到工作场所文化的问题,实际上这个问题也是经济和公共财产的问题。
几个月前我受邀美国白宫讨论了在AI中多样性的必要性,我指出有三个理由使我们必须要提高AI的多样性。
第一个就是涉及到经济和劳动力的原因:AI人工智能是一个日益增长的技术,会影响到每个人,我们需要更多人能开发出更好的技术;
第二个原因是涉及到创造力和创新:很多研究都显示出,当拥有多种多样背景的人共同合作时,会产生更好的结果,会找到更具有创意的解决方案;
最后也是涉及到社会正义和道德价值的:当各种各样背景的人聚集到一起时,他们有着各种各样不同的价值观,代表着人类的技术也会有更加多样性的思考。
视觉和智能的发展造成了动物品种多样性在5亿年前大爆炸式的增长,现在如果我们能够让更多的人参与到AI教育和研究当中,我们可以鼓励更多技术多样化的发展,这样我们会看到技术发现上的寒武纪大爆炸,会使我们的世界变得更好。
这是一位教育家和一位母亲的视角。
谢谢各位!
【本文是51CTO专栏机构大数据文摘的原创文章,微信公众号“大数据文摘( id: BigDataDigest)”】