【AI世代编者按】据外媒报道,通过部分基于人脑模型的算法,麻省理工学院的研究员让计算机可以通过分析照片去预测下一时刻的未来。
麻省理工学院计算机科学和人工智能实验室(CSAIL)的一个项目学习了200万小时的在线视频,分析了不同画面之间的承接关系:行人穿过高尔夫球场,海浪冲刷海岸,诸如此类。目前,在观察一幅静态画面时,这一系统能生成约1.5秒钟长的短视频,对瞬时的未来做出预测。
CSAIL研究生、论文第一作者卡尔·冯德里克(Carl Vondrick)表示:“这一系统试图学习,什么样的视频是可信的,你可能会看到什么样的动作。”相关论文将于本月在巴塞罗那的“神经信息处理系统”大会上发表。未来,该团队希望让系统基于更复杂的场景生成更长的视频。
不过冯德里克表示,未来某天,这一系统的能力不仅仅是将照片转换成计算机生成的GIF动画。例如,在安全监控画面中,基于预测正常行为的能力,系统能分析出异常状况的发生,或是优化无人驾驶汽车的可靠性。他表示,对于无人驾驶汽车,如果系统发现异常状况,例如道路中出现从未见过的动物类型,那么车辆“可以做出探测,并判断:‘我从未见过这样的情况,所以我要停下,让司机来处理。’”
为了开发这一系统,麻省理工学院的团队利用了深度学习技术。目前,深度学习正成为人工智能研究的中心。这一方法让苹果Siri和亚马逊Alexa等数字助手理解用户的意图,协助了Facebook和谷歌(微博)图像搜索和面部识别技术的发展。
深度学习基于被称作神经网络的数学结构,能从大规模数据集中提取模式。专家表示,通过深度学习技术,计算机可以根据医学影像做出诊断,监控银行欺诈,预测用户订单模式,以及与人工司机一同驾驶汽车。
旧金山创业公司Skymind CEO克里斯·尼克尔森(Chris Nicholson)表示:“对于许多重要问题,例如图像识别,深度神经网络的表现要比人脑更好。如果没有深度学习,我认为无人驾驶汽车在道路上会非常危险。如果有深度学习,无人驾驶要比人工驾驶更安全。”Skymind开发深度学习软件,并提供相应的咨询服务。
神经网络接受低层次的输入信息,例如一张图片中的像素点,或一段音频中的小片段,并通过一系列虚拟神经层进行处理。通过对输入信息进行分析,每个数据单元将被分配不同的权重。深度学习中的“深度”意指,这样的神经层层次很多,通过协作的分析去识别数据中的复杂模式,从而理解从像素到基本图形再到复杂的图像,例如道路上的停止标志和红绿灯。为了训练神经网络,研究员需要用大数据集对其进行反复测试,实现权重的自动调整,促使网络的错误率逐步降低。
尼克尔森表示,尽管对神经网络的研究可以追溯至数十年前,但过去10年业内取得的进展尤为明显。2006年,知名计算机科学家吉奥夫里·辛顿(Geoffrey Hinton)的一系列论文为深度学习的快速发展奠定了基础。目前,辛顿同时供职于谷歌和多伦多大学。
2012年,包括辛顿在内的一个团队首次利用深度学习技术赢得了一项颇具盛名的计算机科学竞赛,即ImageNet大规模视觉识别挑战赛。在图像分类比赛中,该团队的软件以较大的优势胜过了竞争对手,错误率为15.3%,远低于第二名的26.2%。
今年,谷歌设计的深度学习系统击败了全球顶尖的围棋高手。许多专家此前认为,人工智能成为围棋大师还要数十年时间。这一名为AlphaGo的系统通过自己与自己的对弈逐渐掌握了围棋技巧。尽管计算机在很久之前就击败了人类的象棋大师,但许多专家认为,让计算机掌握围棋的难度更大,因为围棋存在的可能性要更多。
今年11月,牛津大学的一个小组公布了基于深度学习的唇语阅读系统,其准确性胜过人类专家。本周,包括谷歌研究员在内的一支团队在《美国医学协会期刊》上发表论文称,深度学习可以识别糖尿病视网膜病变,诊断准确率与受过训练的眼科医师相仿。许多糖尿病人都会罹患这样的疾病,进而引起视力的丧失。
谷歌产品经理、论文第一作者莉莉·彭(Lily Peng)表示:“许多无法得到医生诊断的患者可以通过这种方式接受诊断,尤其是对医疗条件不佳的人群而言。这一人群中的糖尿病发病率正在上升,而眼科医师的数量则没有变化。”
与深度学习取得的许多成功案例类似,对视网膜病变的研究也基于通过大数据的训练。这一大数据集中包含约12.8万张已被眼科医师分类的图片。深度学习是属于互联网时代的一项技术。就在几年前,这样大规模的数据集看起来还过于庞大,甚至无法被存入一块硬盘中。
冯德里克表示:“如果没有足够多的数据,那么深度学习就不太有用。如果很难获得数据,那么深度学习就无法带来有意义的进展。”
在学会同样技能的过程中,计算机需要比人类更多的样本数据。随着算法越来越复杂,用于学习的数据量越来越多,近期的ImageNet挑战赛也加入了更复杂的对象识别和场景分析比赛。谷歌开发者利用大量的搜索结果和用户点击数据去进行训练,而开发无人驾驶汽车的公司则通过有人驾驶汽车积累了海量的传感器数据。
加州湾区自动驾驶汽车创业公司Drive.ai CEO萨米普·坦顿(Sameep Tandon)表示:“获得类型准确的数据是最关键的一点。例如,在加州5号高速公路上匀速行驶100小时无法给你在山景城El Camino的驾驶带来任何帮助。”
在所有数据收集完毕之后,神经网络仍需要接受训练。业内专家表示,神经网络中的数学计算并不会比高中生水平复杂很多。这通常包括用矩阵乘法给数据点加权,以及通过微积分以更有效的方式去优化权重信息。但这些计算都需要消耗计算资源。
加州大学伯克利分校研究生、深度学习开源工具包Caffe首席开发者埃文·谢尔哈姆(Evan Shelhamer)表示:“如果你拥有大规模数据集,但计算机性能跟不上,那么模型的训练时间会非常长。”
只有借助现代化计算机,以及连接至互联网、相互分享工具和数据的研究社区,深度学习才成为可能。不过研究人员表示,深度学习并不是在所有情况下都适用。其局限之一在于,神经网络对数据的表达很难理解。因此,如果将深度学习算法应用于某些敏感任务,例如汽车驾驶、判断医疗影像,以及计算信用分,那么监管部门可能会对此持审慎态度。
尼克尔森表示:“目前,深度学习还不具备足够的解释能力。系统并不总能告诉你,为何做出某一决策,即使这种决策方式带来了更好的准确性。”
此外,利用初始的训练和测试数据,系统可能会存在某些盲点。这将导致在异常情况下无法预期的错误。对人类来说幸运的是,当前的深度学习系统还没有智能到足以自主学会新技能,甚至无法学习相似的技能,除非使用另外的数据再去训练。
谢尔哈姆表示:“能识别珊瑚的神经网络并不清楚如何识别道路旁的草地。而擅长围棋的神经网络也无法成为国际跳棋的大师。”(编译/陈桦)