我们从婴儿时期就开始吸收语言。简单的词出现在第一年或第二年。到 6 岁时,我们的词汇量增加了数千个,到了青少年时期,已学习的单词超过 100,000 个。但是,尽管语言是人类与生俱来的能力,但机器发现它非常困难。
这是莫拉维克悖论的一个典型例子,它指出机器容易的事情对人来说很难,反之亦然。软件可以快速、完美地计算大量集合的数学运算,但它在日常人类活动中遇到困难,例如识别周围环境中的物体或理解语言。尽管开发以与人类相同的方式理解自然语言的软件已经有大量的活动,但这仍然是一个重大挑战。
文字不是数字
在过去的 20 年中,产生和捕获的所有形式的数据量都呈爆炸式增长。从广义上讲,这些数据分为两类:结构化和非结构化。结构化数据是数字化和有组织的,根据定义是数学运算的基本输入。得益于机器学习(ML) 和数据处理能力的整体增长,人工智能在从结构化数据中为从潜在机器故障到欺诈检测等所有方面产生预测性见解方面取得了坚实的进展。如果您能够以数字方式表达和构建数据,那么您就有了机器学习驱动洞察力的潜在候选人。
但数字技术也导致非结构化数据的大量增加,包括图片、视频和语言数据。这就是传统的基于机器学习的自然语言处理 (NLP) 技术的不足之处。语言是数据密集型的——它携带着大量的潜在信息,具体取决于它的使用方式。
作为思考练习,只需列出任何常见单词(如“bat”)的含义和用法的数量。这些含义来自上下文。语言学家 RJ Firth 写道:“你应该知道它所拥有的公司一个词。” 语言的这些内在元素使得应用数学技术真正理解自然语言的含义变得非常具有挑战性。然而,“一刀切”的语言机器学习方法还有一个更根本的缺点:知识问题。
知识问题
当您进入复杂的语言文档的现实世界时,语言挑战变得更加复杂,这些文档为众多企业提供支持并且是其领域所独有的。根据定义,这些是使语言更加复杂的边缘情况。机器学习模型仅通过训练所依据的数据了解世界,并且它们通过在许多情况下复杂且不透明的算法得出结果——许多人工智能方法的著名“黑匣子”特征。
提供实际解决方案的大部分工作取决于确保数据集足够大和具有足够的代表性,以捕获主题专家只有经过多年的经验和培训才能识别的信息。在许多情况下,如此大量的训练数据是不可用的。鉴于现实世界会随着时间的推移而发生变化,并且模型需要进行再训练,这也是一项持续的练习。
即使是 GPT-3 等大型语言模型的广为人知的进步,也没有理由对这种复杂性持乐观态度。这些模型依赖海量数据集进行训练,可以处理相对简单的语言案例。但是在特定领域缺乏任何真正的基础,它们与具有经验和知识的人用来理解意图、上下文和含义的方法相去甚远。
整体超过部分之和
人们逐渐认识到需要将机器学习方法的功能与建立在企业专家多年来开发的知识基础上的方法相结合。这些基于知识的方法被称为符号人工智能,依赖于嵌入知识的技术,类似于人类如何建立自己对学科的掌握。
符号方法提供了可解释性的额外好处,因为结果与知识的显式表示相关联。事实上,符号方法是用于人工智能自然语言理解的第一种技术,并且越来越被视为对最近的机器学习方法的必要补充。
学习和知识方法的结合提供了大规模产生深入理解的能力,以及与可解释的领域和结果相关的见解。这种“混合”方法可以确保以可扩展的方式捕获和交付嵌入在语言中的相关信息,从而做出更快、更智能和更一致的决策,从而使人们能够更好地完成工作(变得更专业)。这最终是企业竞争的舞台,也是最好的技术提供的场所。