1月24日,在波士顿去世的马文·明斯基(Marvin Minsky)的身后,有一长排让人肃然起敬的称号:人工智能之父、世界上首个人工智能实验室——麻省理工学院人工智能实验室的联合创始人、计算机领域顶级奖项图灵奖的获得者、虚拟现实先驱等等等等。但明斯基最重要的遗产,是神经网络技术。没有明斯基,今天大部分的科技应用,或许和你根本无缘。
举例来说,当你使用语音助手查询天气、进行语音输入时,用搜索引擎去搜索某张图片时,和朋友聊天使用实时翻译服务时,你可能不会注意到,这些工具背后的一个共同点:深度学习技术。过去几年,深度学习,以及作为其基础的人工神经网络正在快速发展,国内的阿里巴巴、百度、科大讯飞,国外的谷歌、微软、IBM等公司都试图在这一领域抢占先机。
《纽约时报》在讣告中,引述明斯基的同事、计算机科学家艾伦·凯(Alan Kay)的评价:“马文在计算领域中具有罕见的卓识,他把计算机从花瓶般附属机器的定位中解放出来,并意识到计算机的使命,是成为有史以来,人类能力最强大的放大器。”明斯基的远见如今已经成为现实,但是在人工智能的摇篮期,他却差点亲手扼杀了我们今天享受到的一切。
深度学习技术的早期工作可以追溯至20世纪40、50年代,而明斯基正是这一领域的先行者。在哈佛大学读本科期间,他曾开发了早期的电子学习网络。在普林斯顿大学念研究生时,他又建造了第一台神经网络学习机SNARC。1956年,明斯基与“人工智能”的提出者约翰·麦卡锡(John Mcarthy)以及信息论之父克劳德·香农(Claude Shannon)等人一同发起了“达特茅斯会议”,促成了人工智能革命的到来。
然而1969年,明斯基与西蒙·派珀特(Simon Papert)合著的著作《感知机》却被业内普遍认为极大地阻碍了神经网络的发展。明斯基在这本书中着重阐述了“感知机”存在的限制。他指出,神经网络被认为充满潜力,但实际上无法实现人们期望的功能。
在他看来,处理神经网络的计算机存在两点关键问题。首先,单层神经网络无法处理“异或”电路;其次,当时的计算机缺乏足够的计算能力,满足大型神经网络长时间运行的需求。
由于被明斯基这样的权威人士看衰,神经网络和深度学习技术的研究迅速陷入了低谷,70年代则成为了“人工智能的寒冬”。2014年加入谷歌的人工智能专家杰弗里·辛顿(Geoffrey Hinton)当时正在读研究生,他也感受到了这样的“恶意”。当时,当他告诉周围人自己正在研究人工神经网络时,人们总会这样回应:“难道你不明白么?这些东西没用。”
相关研究直到1978年才开始逐渐复苏,而其中的关键人物则是辛顿和哈佛大学神经生物学博士特里·谢伊诺斯基(Terry Sejnowski)。据《纽约时报》记者约翰·马尔科夫(John Markoff)在《与机器人共舞》一书中介绍,1982年,辛顿举办了一场夏季研讨会,主题是联想记忆的并行模型,而与会的谢伊诺斯基当时正在探索如何通过新方式来为大脑建模。他们的理念一拍即合。随后几年,从并行分布处理方法起步,他们创造了新的多层网络“玻尔兹曼网络”。这项研究也证明,《感知机》一书中所做的预言,即感知机无法被推广至多层网络,是完全错误的。
辛顿和谢伊诺斯基随后尝试通过语言问题来展示新技术的力量。第一步,他们让神经网络去学习一本儿童读物。在启动的不到1小时内,神经网络就开始工作。最初,它能正确说出两个单词,而之后词汇量开始越来越丰富,并开始自我完善。随后,他们向神经网络提供了更复杂的学习材料,例如一本有两万多个单词的词典。在经过不断学习后,神经网络甚至能朗读从未见过的新词。
他们将这一程序命名为Nettalk。这一神经网络集成了300个被称作“神经元”的模拟电路,并分为三层,包括用于捕捉单词的输入层,用于表达语音的输出层,以及连接两者的“隐藏层”。Nettalk的大获成功重新点燃了研究人员对神经网络和深度学习的热情,并成为了随后所有相关研究的基础。
实际上,在进入80年代后,《感知机》一书提到的两大问题都已得到解决。一方面,摩尔定律的应验使计算机处理能力飞速提升,计算能力不再成为制约神经网络的因素。另一方面,反向传播算法的提出解决了关于“异或”电路实现的难题。随后的近30年中,随着软件算法和硬件性能不断优化,深度学习技术终于可以大展拳脚。近年来,移动互联网的快速发展、数据量的激增则给神经网络提供了充足的学习材料。
然而,明斯基仍不看好神经网络和深度学习技术。2007年,在新书《情感机器》出版的不久后,《Discover》杂志的苏珊·克鲁格林斯基(Susan Kruglinski)对明斯基进行了采访。后者再次重申了自己的观点:
“人工智能领域的每个人都在追求某种逻辑推理系统、遗传计算系统、统计推理系统或神经网络,但无人取得重大突破,原因是它们过于简单。这些新理论充其量只能解决部分问题,而对其他问题无能为力。我们不得不承认,神经网络不能做逻辑推理。例如,在计算概率时,它无法理解数字的真正意义是什么。”
关于理想中的人工智能技术,他认为重要的一点是使其具备常识性知识,而不仅仅是对图像和语音的模式识别。在他看来,人工智能应当类似于人脑,而“人类解决问题的方式首先是具备大量常识性知识”。随后,他还希望能实现《情感机器》一书中描述的思维体系结构,使人工智能在各种思维方式间切换。
行业的发展并没有按照明斯基的设想去推进。被誉为当前“人工智能三驾马车”的辛顿、延恩·勒昆(Yann LeCun)和约书亚·本吉奥(Joshua Bengio)正受到业内的追捧,而他们关注的领域均为深度学习。辛顿已加入谷歌,而勒昆则成为了Facebook的人工智能业务负责人。
2011年左右,谷歌启动了Google Brain项目,而最初的项目负责人吴恩达是深度学习领域的专家。利用来自YouTube的上千万数字图像,谷歌的神经网络进行了自我训练,而学习效果超过了此前所有项目。由于YouTube上大量关于猫咪的影像,这一系统甚至自己学会了识别小猫。科学家将这种机制形容为大脑视觉皮层控制论的“表亲”。这一实验采用了1.6万颗处理器构成的神经网络集群,但与人脑的数十亿个神经元相比,这只是九牛一毛。
利用深度学习技术,谷歌是否已踏上了“人工大脑”的道路?这个问题正引起越来越大的争议。但业内普遍认为,深度学习技术帮助人工智能研究在视觉和语音领域取得了长足进步。在硅谷,越来越多科学家和工程师认为,深度学习将最终带来“强人工智能”:机器的智慧水平将超过人类。
2013年,明斯基在麻省理工学院的学生、知名未来学家雷伊·库兹韦尔(Ray Kurzweil)接替吴恩达,出任Google Brain项目负责人。在谷歌强大的神经网络的基础上,库兹韦尔的到来或许将可以帮助明斯基实现未尽的目标。
人工智能的未来或许可以用明斯基2014年的一段话来总结:“如果你让计算机自己待着,或是让许多计算机待在一起,那么它们可能会试图了解,它们从何而来,它们是谁。如果它们突然看到一本关于计算机科学的图书,那么可能会嘲笑着说:‘这太假了。’而不同的计算机群体可能也会有不同想法。”