在深度学习刚刚进入视线时,大多数AI研究人员嗤之以鼻,但短短几年后,它的触角已经横跨医疗、教育、汽车等众多领域。
AI 在深度学习的加持下,近几年在人脸识别、围棋、Dota等任务上屡屡击败人类,这种趋势似乎也在暗示:深度学习就是打开人工智能宝藏的钥匙。
但也有观点认为当前深度学习已经走到了死胡同,例如全球人工智能计算机视觉领域奠基人之一、约翰霍普金斯大学教授艾伦·尤尔就曾抛出“深度学习在计算机视觉领域的瓶颈已至”的观点。
本文作者 Randy Laybourne 比较支持尤尔教授观点,并盘点了20条理由逐一论述深度学习的研究当前已经走到了死胡同。AI科技评论作了有删改的编辑,请欣赏~
1、反向传播技术只适合狭义AI
反向传播是深度学习的基本技术,它能够让神经网络在训练过程找到“最优解”。但是如果让训练好的神经网络执行另一项任务或者使用新数据时就会发生灾难性遗忘,从而无法完成持续学习的目标。
当然,你可以减少之前学习任务以及调整网络结构来解决灾难性遗忘,但是如果有新数据涌入,则必须增加神经元的数量。
大脑与我们手工设计的神经网络相比有着更多的神经元,所以你会认为增加人工神经网络的神经元完全没有问题对吧?
但是你也要明白,大脑具有功能模块化的特点,它在执行任务的时候,每次只调用一小部分神经元。而反向传播在迭代的时候调用的是全部的神经元。
另外,大脑模块化的特点能让我们人类学习到不同的东西,而且不同模块之间信息是可以相互交流的。
那么构造多个深度神经网络并让它们之间互相连接能够解决问题么?
显然高级智能的功能远不止这些。
2、无监督学习
大脑在进行学习的时候,并不需要大量的示例,也不需要一个监督者在旁边“叮嘱”。大脑的学习方法更加复杂,例如,即使一些“数据”没有打标签,大脑也能从其中学到一些东西。
当然,我们也不是在模仿翅膀的动作来制造飞行器,但是鸟类却证明了当克服重力时,比空气重的物体也能够飞行,这意味着即使通用人工智能没有大脑一样的思考方式,也能够通过无监督的学习方式实现智能。
3、认知图与路线
当前,深度学习想要掌握更多的是一种认知路线,即从输入数据到输出的认知途径,也就是说,深度学习是输入和输出之间关联记忆的一种形式。
考虑下面一种认知路线的情况:
“径直穿过森林,看到一条河,然后穿过小河,左转,在一棵奇怪的树附近停下来,然后能到山顶上有三块大石头的山,最后沿着路上去”
现在的问题是,如果有人砍掉了树或不知何故搬开了石头呢?
这就是深度学习的缺点:知识的应用范围非常狭窄,只适用于一项任务。解决方法是创建一个动态的地图,即找到从不同起点到无限终点的多条路线。
这就是狭义AI和通用AI的区别,这种区别也深深影响着神经网络的结构。
4、预测过程
我们的大脑总是尝试主动预测接下来几秒所发生的事情,并根据实际情况调整预测细节。这也是人类具有强烈好奇心的原因。
除此之前我们人类还有另一个驱动因素,即当我们有着很好的基础时,我们总想要改善我们关于心理模型的认知地图-。
人类在面临未知的时候总是想要找到一个令人满意的解释,否则不会停下来。所以说这种预测过程可以节省我们的精力,也可以激励我们变得越来越好,能够扩大我们的知识面和技能,完善我们的知识和技能认知图。
这也就是说预测性处理是我们直觉的来源。显然,深度学习缺乏这种预测。
5、高效利用资源
谷歌的TPU
能源的缺乏性没有人可以否认,我们大脑在处理问题的时候,也会对尽可能多的事情说“不”。具体而言,当大脑处理一个连续的数据流的时候,会经过一层过滤装置,过滤掉无用信息,将重要的信息发送到大脑皮层。
当在无意识状态下处理事情的结果足够好的时候,大脑就不会切换这种状态。当有重要任务要做的时候,大脑会关闭一些默认状态下的大型网络神经元,然后开启中央执行网络。
根据研究,大脑大概有86~1000亿个神经元,大多数被密集的分布在小脑部分,主要负责人体的各项活动。前面也提到,大脑会有选择的关闭或开启某些神经元,而深度学习则在每一次迭代中都会利用所有的神经元,这也是为什么我们至今没有设计出如此规模的神经元的原因。
另外,深度学习的能源效率很低,以至于在即使最强大的处理器加持下,也无法与运行频率只有10–40Hz的大脑相提并论。
6、多感官数据表示
目前,语音是人工智能最难啃的硬骨头。虽然我们可以利用AI设计出色的文本生成系统,也能够为人类编撰优秀的文本。但这种文本生成系统背后存在“理解”么?还是说只是单词之间的统计关系。
在小孩子学习语言之前,其实就已经受到了许多感官刺激,小孩所接触的每种含义特征不是某些数据集中的相邻单词,而是丰富的体验集,包括视觉,声音,气味,味道,触觉,情感等等。
然后,在这些特征的基础上,我们贴上正确的标签,教导孩子进餐,去洗手间或其他任何东西。
另外,即使我们不知道某些“东西”确切的名字,也可以根据未知对象的属性与已知类的相似性对其进行分类。例如声音很容易引起情绪反应,气味会带回记忆。
显然,当前的深度学习的神经网络只是具有强大的单独处理功能,无法匹配类似的连接。
7、经验丰富
如何向AI解释这个世界,仅仅让AI通过静止图像或文本数据集了解所处的世界,不考虑上下文、背景啥的么?
假设不曾得知“引力”为何物,那么我们该如何教导AI?
如果我们想要具有类人能力的机器,我们必须认识到至少我们的身体和大脑是生物机器。
人类的大脑将无色,无声和无味的原子渲染成世界,并“解释编码”传入信号,同时创建一个可以让我们理解的现实模型。
只有这样我们才会知道在地球上扔东西时,它就会掉落。但是数字地图上向下移动的点不受重力影响。显然数字世界和物理世界的规则非常不同。
深度学习能够教导AI理解这一点么
8、连续立体声数据流
我们的身体大致具有对称性,我么拥有双眼、双耳、双手、双腿,还有两个大脑半球。这帮助我们以一种新的方式感知世界并与之互动。
立体视觉可以帮助我们测量视觉场景的深度,声音可以帮助我们定位视觉的来源,大脑的二元性可以帮助我们应对不同心理能力......
同时,大脑的连续性功能使我们确信,前一秒还是你的朋友的那个人仍然是原来的那个人,你不需要通过视觉或声音属性再次确认。
大脑会主动预测正在发生的事情,从而节省精力,增强信心,并实时学习。
深度学习在目前显然无法达到。
9、非随机初始化
人脑的语义空间
人工神经网络的初始化是随机的,我们使用基于梯度的方法来训练网络,并使其在所有值都相同时对网络进行分解。
可以对神经网络进行优化,并强制指定其初始化的方法。但要注意的是,这在有监督的环境中是可以实现的,要想在现实世界中大规模部署自主AI,显然随机初始化可能是最好的选择。在此类情况下,不管时间和位置如何,我们最好的想法是让AI以类似方式完成适应过程。
10、将情绪状态作为一个通用评价系统
我们或许认为情绪是人类所独有的,甚至不及硬逻辑。
但是它作为人体中的一个通用评价系统,我们能够很快地通过情绪快速评估自身的状态:是充满活力还是欢欣鼓舞,亦或是无比沮丧的低沉状态。
无论我们何时要做决定,都要基于我们自身的感受。即便我们要考虑斟酌很久来评估不同的选择,然而最后,我们还是会选择我们“感觉起来”最好的那个。
我们已经尝试用强化学习来模拟人类的情绪,然而仅仅也才走出了一小步。
情绪能够被量化,这是因为他们都是由不同层面的神经化学物质所组成的,例如血清素、多巴胺、肾上腺素等等。
我们做出想要战斗或航行的反应,是因为多巴胺很高,它能够刺激我们快速执行一系列动作。而当去甲肾上腺素低时,我们会感受到害怕的情绪从而试图逃跑;当去甲肾上腺素高时,我们会找到勇气去战斗,或者在极端高时,我们会感受到愤怒或强烈的疯狂的情绪。
11、数字化神经调质
数字化神经调质可以让自主的 AI 以跟神经调质同样的方式,打开和关闭大规模的神经子网络。
在人脑中,高水平的神经调质乙酰胆碱会增加与记忆、内部定向认知、思考和推理相关的神经元活动。
而多巴胺则会增加外部认知的重要性,并更快地选择足够好的动作。
食欲素调节能量,当我们处于清晰状态时,会增加;当我们入睡或产生免疫反应时,则会降低。在自主机器人等设备一直无法连接到电源时,数字化食欲素有助于实现优秀的能量消耗。
人体使用化学物质自动进行自我调节,我认为在这方面,人工智能也存在巨大的可能性。
12、人工直觉
深度学习自身其实仅是处理数据的一种方法,从输入到输出的一种非常被动的方法。而人类也赋予深度学习一种非常强大的能力,那就是直觉。
在深度学习中当所有条件都匹配时,网络中神经单元会被预先激活,但是最终是否会对现实造成一些影响,我们尚未可知,我们只是感觉到,将会产生一些影响。
人类的意识中也尽是与此相同的机制:脑海中蹦出来的想法不知从何而来,但是大脑会认为这些想法将来是有用的。
直觉能够帮助我们未雨绸缪,也能够让数据处理变得更加简单。例如在深度学习中,如果上下文都是正确的,则可以降低针对目标或声音识别的阈值,来简化处理流程。
有时直觉也可能让我们犯错,例如我们可能会错认朋友,或者听到别人实际上并没有说过的话。
但是大多数时候,我们利用直觉节省了大量的能源,甚至由于直觉发出了对潜在危险的预警而挽救了数不尽数的生命。
13、隐藏的大脑:神经胶质细胞
多年来,神经胶质细胞一直仅仅被视作大脑的填充物,然而它实际上对大脑的运行有很大的影响作用。人类拥有的神经胶质细胞比神经元还多,它们支持神经元部分、提供营养并通过触发免疫反应来处理如有毒的代谢衍生物等垃圾和外部危险。
然而当前的人工神经网络完全不把神经胶质细胞当回事。但是,它们可是实实在在控制着神经元的啊。
它们除了对神经元起到维持作用外,还影响着神经元的尖峰,如果应用到深度学习中,有可能还能够计算数据预测的误差。
星型胶质细胞不受短时期内的电刺激,而是受长时期的化学刺激。它们可以在全局范围内彼此进行交互,并不仅仅为需要更多资源的地方提供资源,还能改进整个系统的运行。
14、皮层下成分
目前的人工神经网络不仅忽略了星型胶质细胞,而且忽略了皮层下成分。
在处理数据时,人脑除了新皮层,还有大量其他的模块来对其进行支持,如丘脑、海马体、纹状体以及杏仁核等等。
它们都在大脑中扮演中非常重要的角色。
没有海马体和内嗅皮质,我们就无法记忆,也很难在物理空间进行定位。丘脑过滤数据,并将数据传输到大脑的正确部位。纹状体和杏仁核则能够调节对输入数据做出的反应。
屏状体也是大脑中一个非常有意思的部分。科学家们发现,当受到电刺激时,它会充当意识的“开关”。
相关阅读:
https://www.newscientist.com/article/mg22329762-700-consciousness-on-off-switch-discovered-deep-in-brain/
15、因果推理
人类拥有的强大能力之一,便是因果推理。
我们可以通过做心理模拟——想象或回想整个过程的步骤,在大脑中找到导致某个结果可能存在的原因。
而关联性并不就是指因果关系,正如一句名言所说的:仅仅使用统计学是远不够的,我们还需要用到关系、丰富的语境信息和多感官体验。
16、心理模拟器
如文章开头所提到的,人脑实际上是从无色、无味、无声音的原子来呈现现实世界的。
这是因为它如此擅长这种呈现方式,并且还能够模拟未曾发生过的事情。而这也是我们的想象力之所以存在,并且还会做梦的原因。
它让我们在现实世界中不受任何损失地体验和学习。这种心理模拟器也是意识型体验的基础。
人类创造了很多抽象的事物,这些都仅存在于我们的脑海中。我们在真正动手发明某些东西前,会先在脑海中进行想象。这也是人类进化拥有比其他生物更好的优势的源泉所在
在未来的通用人工智能框架中,我们需要用到心理模拟器!
17、增量学习
增量学习的方法,与用固定的数据集来训练神经网络的方法完全相反。
这种方法可以让机器一直学习到新的东西,并且不断更新现有的知识来进行自我提高。
当然,我们可以总是用新的数据来重新训练模型,但是这种做法会让资源利用效率低下,而采用更大的神经架构来训练模型,则一直以来都存在问题。
直观上,虽然增量学习会导致所谓的过拟合,但是现在已经有很多技术能够解决这一问题。并且,将足够多的数据增量添加到记忆中的增量学习方法,要更简单得多。
人类并非天地万物的主宰,我们擅长处理自身已有足够多经验的事情,并且还可以随时更新心理模型来选择更好的解决方案。
18、终极算法
我认为,我们能够找到最终算法,开启推动人工智能发展的钥匙。
到那时,数据处理将会变得不同,所谓的超参数在不同情况下也会各不相同,然而,整个人工皮层中的算法可能却是一样的,它们决定哪些是高度相关、哪些的相关性较低,哪些需要记住、哪些舍弃。以及,哪些要被记成反面案例。
19、硬件:专用处理单元
一般用途的处理单元如CPU,不如专用处理单元的效率高。为了达到复杂的认知结构所需要的效率,处理单元需要足够的并行性。
由于抽象层诸多,当计算机运行某些任务时,比如图形用户界面、框架和开发库、操作系统以及给机器代码编程语言等,处理单元会在这些抽象层之间转换。并且,这样做非常费时间。
让它乘以每秒数十亿次运行,你就能够对处理单元的运行情况有一个较为全面的了解。
编程语言有助于原型设计和实验,能够让解决方法适应我们的需求。但是编程语言的重要部分需要在处理单元执行,就像每个CPU内部都有算术逻辑单元一样。
我们需要在硬件中实现关键的算法,现在许多公司都已经开始在尝试实现这一点,但是他们尝试的方向是否正确呢?
20、自组装还是人为构建?
大脑复杂非常,人类至今也尚未能完全理解人脑。不仅如此,现在关于大脑架构的很多研究结果还存在矛盾。我们不能仅仅依靠神经科学来开发通用人工智能。
但是我们可以理解大脑的高级功能,例如这些功能能做什么以及或多或少能怎么做。
由于大脑就是一个自组装的处理单元,根据自身的生理和心理需求和局限性来做各种事情。许多观察到的行为或属性都与该结构运行和生存所需的实际情况,息息相关,而不是因为它需要实现更高水平的智能。
让神经科学、计算机科学和数学之间达成正确的平衡,有助于我们最终开发出拥有与人类一样的能力的机器。
总结
尤其是近几年来,所有这些技术都取得了巨大的进展。我们很容易忽略,与我们未来人类将取得的成就相比,现在 AI 领域还尚处于“石器时代”。
计算时代才刚刚开始,换个看待当下 AI 发展的视角,将为我们带来更加广阔的视野。能将我们带向未来某处的事物,往往与将再度推动我们向前迈进一大步的不同。
当某个人做了一些与其他人稍有不同的事情而扩展了人类的视野时,人类进化往往会实现一次巨大的飞跃。
同样地,我认为,我们通过尽可能寻找不同的方法来做人工智能研究时,最终能够让人工智能领域取得巨大的进展。