深度知识的六个维度：如何让人工智能真正理解世界？-人工智能深度思考

什么知识让我们变得聪明？我们用来理解世界、解释新体验和做出深思熟虑的选择的认知结构是什么？定义一个阐明给人类或人工智能更深入理解和更高认知的知识的框架，将有助于我们对此话题进行结构化的讨论。

近日，英特尔实验室副总裁兼紧急人工智能研究主任Gadi Singer介绍了这种赋予人工智能更高认知的知识构建（knowledge constructs）的数个维度，并指出一条通往更高智能机器的道路。

图为英特尔实验室副总裁 Gadi Singer

更高层次的机器智能的核心，可能是让知识构建帮助人工智能系统组织自己的世界观，赋予人工智能理解意义、事件和任务的能力。如此一来，机器认知将从数据扩展到知识结构，包括描述性知识、世界动态模型和起源等维度。

在学习语言时，我们要区分形式（form）和意义（meaning）：形式指的是用来表达意义的符号，也就是表面的表达。每种形式在特定的语境中都有特定的含义，而形式在不同的语境中可以有不同的含义。

正如Bengio和Schölkopf等人在“Towards Causal Representation Learning”一文中总结的那样：“目前机器学习的大多数成功都是源于对适当收集的独立和相同分布（i.i.d）数据的大规模模式识别。”系统吸收可观察到的元素，如文本字符、声音信号和图像像素，并建立模式和随机相关性，同时在基于识别的任务中产生出色的结果。

论文地址：https://arxiv.org/pdf/2102.11107.pdf

越来越多的人认为，算法必须超越表面相关性，达到真正理解的水平，从而实现更高水平的机器智能。这种彻底的转变将使所谓的System 2、3rdWave或广义/灵活的 AI 成为可能。正如Gadi Singer在核心博客“认知人工智能的崛起”中所说的那样，更高水平的机器智能需要深层次的知识构建，这种知识构建可以将人工智能从表面相关性转化为真正理解这个世界。

美国国防部高级研究计划局（DARPA）的 John Launchbury 指出，在第三次人工智能浪潮中，抽象（比如创造新的意义）和推理（规划和决策）将掀起一场新革命。第三次浪潮本身的特点是语境适应，即系统为现实世界的各种现象构建语境解释模型。

知识维度中有两个维度反映了对世界的看法，一个是描述性维度，描述性维度对世界上存在的事物进行了概念性的抽象，另一个是现实世界及其现象的动态模型。

此外，故事提升了人类在共同信仰和神话基础上的理解和交流复杂故事的能力。语境和来源归因以及价值和优先级是元知识维度，这些维度带来了基于条件的有效性和知识的不断叠加。最后，概念参考是结构基础，跨维度、模态和参考而存在。

这六个知识维度结合在一起，可以让人工智能不仅仅停留在事件相关性上，而是获得更深入的理解，因为这六个知识维度的潜在概念是持续的，可以解释和预测过去和未来的事件，甚至允许计划和干预，并考虑反事实的现实——因此文中使用了“深度知识（deep knowledge）”一词。

阐明和描述机器智能所需的知识构建类型，有助于确定实现这种知识构建的最佳方式，从而实现更高水平的机器智能。

1 支持更高水平智能的六大知识维度

对于人工智能系统来说，实施人类理解和交流中观察到的知识构建可以为智能提供实质性的价值。当所有的知识类型都得到支持和组合时，实际价值会大幅增长。

图注：支持更高水平智能的知识维度。图源：Gadi Singer/英特尔实验室

（1）描述性知识：层次、分类和属性继承

描述性知识（即概念性的、命题性的或陈述性的知识）描述事物、事件、事物/事件的属性以及其之间的关系。假设使用（适当的）类或概念的分层，深度描述性知识就能扩展其原本的定义。这类知识可以包括事实和记录系统。与特定用例和环境相关的事实和信息可以作为层次知识进行组织、利用和更新。

单个人工智能系统中使用的基础本体（ontology）可以使用来自策划系统的与任务相关的类和实体（例如，OpenCyc本体或AMR命名的实体类型）进行播种。这种基础本体应该是可以通过神经网络/机器学习技术进行扩展——也就是说，获取新知识就会得到新的实体，关系和类。

（2）世界模型

世界上的现象模型让人工智能系统能够理解情况、解释输入/事件以及预测潜在的未来结果并采取行动。现象模型是抽象/概括，可以分为正式模型和近似（非正式）真实世界模型；现象模型允许在特定情况下对实例使用变量和应用程序，并允许对特定实例或更通用的类进行符号操作。

正式模型的例子包括逻辑、数学/代数和物理。与正式模型相比，现实世界的模型通常是经验的、实验性的、有时甚至显得有些混乱。现实世界的模型包括物理模型、心理模型和社会学模型。程序模型（“专有知识”）包括在这个类中。

因果模型可以帮助人工智能系统发展更上一层楼。在语境发生变化的情况下，如果与因果关系等知识模型相结合，并理解了控制原因的语境和考虑反事实的能力，那么过去的统计数据就可以有效地应用于现在从而预测未来。这些模型有助于从条件和可能因素的角度理解情况或事件。因果推理是人类思想不可或缺的组成部分，通过这种方式可以实现人类智慧级别的机器智能。

（3）故事和脚本

正如历史学家尤瓦尔·哈拉瑞所说，故事构成了个人和社会的文化和世界观的关键部分。故事的概念对于充分理解和解释人类的行为和交流是必要的。故事是复杂的，在一个连贯的叙述中可能包含多个事件和各种信息。故事不仅仅是事实和事件的集合，故事还包含了重要的信息，这些信息有助于发展对所呈现数据之外的理解和概括。与世界模型不同的是，故事可以被视为具有历史意义、参考意义或精神意义。故事可以代表价值观和经历，这些价值观和经历会影响人们的信仰和行为。例子包括宗教或民族故事、神话，以及在任何层次的人群中分享的故事。

（4）语境和来源归因

语境的定义是围绕着某个事件并为其自圆其说提供资源的框架。语境可以看作是一种覆盖的知识结构，调节着它所包含的知识。语境可以是持久的，也可以是短暂的。

持久的语境可以是长期的（比如从西方哲学角度或东方哲学角度获取的知识），也可以随着时间的推移、根据新的学习材料而改变。持久语境不会对每个任务进行更改。
当特定的本地语境很重要时，瞬态语境是相关的。单词是根据其周围句子或段落的局部语境来解释的。图像中感兴趣的区域通常在整个图像或视频的语境中得到解释。

持久语境和瞬态语境的结合可以为解释和操作知识提供完整的设置。

知识的另一个相关方面是数据来源（又名数据追溯），其包括数据来源、在数据传播的过程中发生了什么以及随着时间的推移数据将去往何方。人工智能系统不能假设所接收的所有信息都是正确或可信的，尤其是在被称为“后真相时代”的情况下信息更不可轻易相信。将信息与其来源相关联可能是建立可信性、可认证性和可追溯性所必需的。

（5）价值和优先级（包括善/威胁和伦理）

知识的所有方面（例如，对象、概念或程序）在整个判断范围内都有相对应的价值——从最大的善到最大的恶都有对应。可以假设，人类智力的进化包括追求回报和避免风险（比如，追求吃午餐；避免被当成午餐）。这种风险/回报的关联与知识紧密相连。潜在的得失具有功利价值；对于实体或潜在的未来状态，还有一种基于伦理的价值。这种基于伦理的价值反映了一种道德价值观，即“善”不是基于潜在的有形回报或威胁，而是基于对什么是正确的潜在信念。

价值和优先级是元知识（meta-knowledge），其反映了人工智能系统对知识、行动和结果相关方面的主观断定。这为问责制奠定了基础，应该由负责特定人工智能系统的人认真处理。当人工智能系统与人类互动并做出影响人类福祉的选择时，潜在的价值和优先级系统很重要。

6. 概念参考：消除歧义，统一和跨模态

知识是以概念为基础的。例如，“狗”是一个抽象概念——一个有多个名称（在各种语言中狗的说法都不一样）、一些视觉特征、声音联想等等的概念。然而不管其表现形式和用法如何，“狗”这个概念都是独一无二的。“狗”的概念被映射到英语单词“dog”，以及法语单词“chien”。“狗”的视觉特征可能如下图：

同时“狗”也和汪汪吠叫声对应了起来。

概念引用（Concept Reference，简称ConceptRef）是与给定概念相关的所有事物的标识符和引用集。概念引用本身实际上不包含任何知识——知识驻留在前面介绍的维度中。概念引用是多维知识库（KB）的关键，因为概念引用融合了概念的所有表象。

Wikidata就是集中存储结构化数据的多维知识库的一个很好的例子。在Wikidata中，项（items）代表人类知识中的所有事物，包括主题、概念和对象。Wikidata的条目与这个框架中ConceptRef的定义相似——只有一个关键的区别：在Wikidata中，术语“项”既指给定的标识符，也指有关标识符的信息；而ConceptRefs 只是带有指向KB指针的标识符。关于概念的信息则被填充在前面章节中描述的各种视图中（例如与概念相关的描述性或程序性知识）。

常识

常识知识由隐性信息组成，隐性信息是指广泛（且为大众共享）的不成文的假设，人类自动运用这些假设来理解世界。人工智能想要更深入地理解这个世界，将常识应用到情境中是必不可少的。在这个框架中，常识知识被认为是上述六种知识类型的子集。

2 理解与知识类型之间的关系

理解是智能的基础。向更高级机器智能的发展引发了一场关于“理解”的讨论。约书亚·本吉奥将拥有人类理解能力的人工智能描述为：

明白因果关系，理解世界如何运转；
理解抽象的行为；
知道如何使用以上知识去控制、推理和计划，即使是在新颖的场景中也依然拥有这种能力；
解释发生了什么;
out-of-distribution（即OOD，分布外）生成。

而以知识为中心的对理解的定义是：用丰富的知识表示创建世界观的能力；获取和解释新信息以增强这种世界观的能力；以及对现有知识和新信息进行有效推理、决定和解释的能力。

这种理解观点的先决条件是以下四种功能：

具备丰富的知识；
获取新的知识；
能够跨实体和关系连接知识实例；
对知识进行推理。

理解不是二元属性，而是因类型和程度而异。这一观点的核心是知识的本质及其表征——知识结构和模型的表达能力可以促进理解和推理能力快速发展。

想象所有的人[和机器]

正如阿尔伯特·爱因斯坦所观察到的：“智能的真正标志不是知识，而是想象力。”要真正理解，机器智能必能超越数据、事实和故事。要重建，发现和创造一个可观察属性和事件背后的宇宙模型，想象力是必要的。从人工智能系统的角度来看，想象力是通过创造性推理实现的，也就是进行归纳、演绎或溯因推理，并产生不受以往经验和输入输出相关性严格规定的新颖结果。

知识表示和推理是人工智能的一个成熟领域，这个领域处理关于世界的信息表示，使计算机系统能够解决复杂的任务。知识和推理不一定是截然不同的，而是代表了一个从已知到推断的光谱。机器理解将通过构建知识的能力辅以先进的相关推理（例如，概率推理和似是而非推理、溯及推理、类比推理、默认推理等）来得到实现。

建立在深度知识基础上的神经符号AI

在使人工智能更有效、更负责任和更高效地为人们提供支持的过程中，我们的目标是使人工智能系统更强大，同时推动人工智能达到更高的认知和理解水平。科学家已经在处理数据、识别模式和寻找转瞬即逝的相关性方面取得了巨大的进展，但仍有必要思考哪些知识类型能赋予人工智能系统对世界建模和理解世界的能力。

当我们对人工智能获得更高层次的认知所需要的知识结构的类型有了更深的理解时，我们就可以继续在这个深度知识的基础上进行构建，使机器能够真正地理解世界。