在过去十年的人工智能浪潮中,以深度学习为代表的人工智能技术已基本实现了视觉、听觉等感知智能,但依然无法很好地做到思考、推理等认知智能。因此,具有推理、可解释性等能力的认知智能研究毫无疑问将越来越受到重视,成为未来人工智能领域重要的发展方向之一。
研究人员的嗅觉无疑是最敏锐的。例如,ACM图灵奖获得者约书亚·本吉奥(Yoshua Bengio)在NeuIPS 2019的特邀报告中明确提到,深度学习需要从系统1(System 1)到系统2(System 2)转化。
注:这里所说的System 1和System 2是指认知科学中的双通道理论,其中System 1表示直觉的、快速的、无意识的、非语言的、习惯的认知系统,这也是目前深度学习技术擅长的事情;System 2则表示慢的、有逻辑的、有序的、有意识的、可用语言表达以及可推理的系统,这是未来深度学习需要着重考虑的研究方向。
1 神经系统和符号系统的特点
从更宏观的角度来看人工智能,System 1对应的是神经(Neural)学派, System 2则对应符号(Symbolic)学派,Bengio所提的System 2关于深度学习的想法与“神经+符号”的人工智能目标基本一致。
沿着这一点追溯,我们可以发现另一位ACM图灵奖得主马文·明斯基(Marvin Minsky)早于1986年在《心智社会》(The Society of Mind)一书中就清楚地阐述了人工智能和认知心理学(即System 1和System 2)之间的关系,并深入分析了人工智能中的神经系统和符号系统各自的特点和结合的可能,如图1所示。
从宏观再到具体,以数据的对象、存储以及应用来说,无论是神经系统还是符号系统,数据建模的目的都是求解给定输入问题的答案,如图2所示。但不同之处在于,神经系统擅长处理非结构化的数据(如文本等)。
目前的主流模型以端到端为主,常见的应用场景有机器翻译、语音识别、简单问题智能问答(如,姚明的身高是多少?)等;而符号系统主要以结构化的数据库为主,且通常支持结构化的查询、推理引擎等,能够实现复杂问题的求解(如,美国是农业出口大国,为什么还要进口咖啡?)。
值得一提的是,ACM图灵奖获得者莱斯利·瓦利安特(Leslie Valiant)曾精辟地指出:神经系统侧重对数据特征的学习过程,而符号系统包含的一定是一个搜索过程,后续大量面向符号系统的研究本质上致力于各种高效的搜索算法。
神经系统和符号系统各自的特点还可以通过两个计算机视觉领域应用中的例子来体会:图3(a)的例子表示经典的手写体识别,对于给定可观察的手写数字和比较符样本集合,在经过训练后,大量神经系统的模型可以很好地识别各类手写体(即视觉层次的泛化认知能力),但却很难实现符号知识的认知泛化(即对于未出现在训练样本中的比较符样例,难以进行求解判断)。
同样,在图3(b)的视觉问答例子中,神经系统可以轻松应对简单的视觉问答场景(如,图中有几只长颈鹿?),但是如果需要回答更复杂的问题(如,图中动物和斑马有哪些共同属性?),则必须借助外部的符号知识(如知识图谱)进行认知推理,才能完成求解过程。
综上所述,“神经+符号”系统无疑是人工智能的理想模型。我们可以总结出一个完美的“神经+符号”系统的特点和优势:
1.可以轻松处理目前主流机器学习擅长的问题;
2. 对于数据噪音有较强的鲁棒性;
3. 系统的求解过程和结果容易被人理解、解释和评价;
4. 可以很好地对各类符号进行操作;
5. 可以无缝地利用各种背景知识。
然而,实现“神经+符号”的有机结合并不容易。多年来,各个领域的人工智能研究者对此进行了大量研究。知识图谱作为近年来热门的人工智能研究方向,从早期的知识库、专家系统,到谷歌公司在2012年正式提出知识图谱,其发展历程也可以看作神经系统和符号系统各自的发展缩影,其中包括“神经+符号”结合的多次尝试,如图4所示。
2 “神经+符号”的结合
笔者从知识图谱领域的研究视角对目前的工作梳理总结后发现,“神经+符号”的结合工作主要可以分为两类:
神经助力符号(neural for symbolic)这类方法的特点在于将神经网络的方法应用在传统符号系统的问题求解,通常主要用来解决浅层次的推理问题。
例如采用知识图谱表示学习(knowledge graph embedding)[1]、图神经网络(Graph Neural Networks,GNN)[2]等技术进行知识图谱的补全,其特点是用统计推理代替逻辑演绎;还有采用循环神经网络(Recurrent Neural Network,RNN)、图卷积神经网络(Graph Convolutional Network,GCN)等技术进行多跳智能问答[3],也是类似的工作,如图5所示。
此外,Swift Logic[3]、神经理论证明机[4]、逻辑张量网络[5]等工作也属于“神经”助力“符号”的尝试,其主要思想是改进神经网络的方法,将其应用到知识图谱领域的深层推理场景,进而提升效果。
符号神经(symbolic for neural)这类方法的特点在于将符号的方法应用在神经网络的训练过程中。例如,使用逻辑规则在深度神经网络中进行数据的编审(data curation)[6];将知识图谱应用在远程监督、少样本、零样本的模型和场景中[7,8],如图6所示。
最近有一类研究叫做可解释的人工智能(explainable AI)[9],其主要思想是利用知识图谱中的事实或规则,对神经网络训练过程中的行为进行解释,进而提高神经网络的可解释性。值得一提的是,清华大学唐杰等人最新提出的认知图谱[10],就是“神经+符号”与“System 1+System 2”在可解释人工智能方面的尝试,旨在用符号知识的表示、推理和决策来解决深度学习求解过程的黑盒问题。
3 总结与展望
以上的研究现状表明,“神经+符号”的结合仍停留在仅以一方为主,并到另一方问题的适用或迁移,实现“神经+符号”真正有机结合的系统还任重道远。如何在神经和符号之间取得一个巧妙的平衡,将是衡量模型价值的关键,其范围涉及了目前几乎所有主流的人工智能研究,如图7所示。
未来关于“神经+符号”的研究中可能涉及到的关键问题和挑战包括:
1. 知识的表示:建模多模态、时空、事件等非结构化数据的符号知识表达;
2. 推理的实用性和效率:将神经的方法用来实现深层推理或加速传统符号推理的效率;
3. 人在回路和可解释性:将专家或用户的反馈加入系统考虑并确保系统求解过程的可解释性。
参考文献:
[1] Wang Q , Mao Z , Wang B , et al. Knowledge Graph Embedding: A Survey of Approaches and Applications[J]. IEEE Transactions on Knowledge & Data Engineering, 2017, 29(12):2724-2743.
[2] Zhang M, Chen Y. Link Prediction Based on Graph Neural Networks[C]// Neural Information Processing Systems, 2018: 5171-5181.
[3] Jain S . Question Answering over Knowledge Base using Factual Memory Networks[C]// Proceedings of the NAACL Student Research Workshop. 2016.
[4] Rocktaschel T, Riedel S. End-to-end differentiable proving[C]// Neural Information Processing Systems, 2017: 3788-3800.
[5] Socher R, Chen D, Manning C D, et al. Reasoning With Neural Tensor Networks for Knowledge Base Completion[C]// Neural Information Processing Systems, 2013: 926-934.
[6] Hu Z, Ma X, Liu Z, et al. Harnessing Deep Neural Networks with Logic Rules[C]// Meeting of the Association for Computational Linguistics, 2016: 2410-2420.
[7] Zeng D, Liu K, Chen Y, et al. Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks[C]// Empirical Methods in Natural Language Processing, 2015: 1753-1762..
[8] Chang X, Zhu F, Bi X, et al. Mining knowledge graphs for vision tasks[C]// Database Systems for Advanced Applications, 2019: 592-594.
[9] Samek W , Grégoire Montavon, Vedaldi A , et al. Explainable AI: Interpreting, Explaining and Visualizing Deep Learning[M]. Vol. 11700. 2019: Springer Nature.
[10] Ding M, Zhou C, Chen Q, et al. Cognitive graph for multi-hop reading comprehension at scale [C]// Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019: 2694-2703.