什么？词向量不能随意做算术运算！-51CTO.COM

作者 | 汪昊

审校 | 重楼

2013 年是自然语言处理领域发生巨变的一年。这一年，词向量算法 word2vec 诞生了。这一算法将文字符号转换为了数字向量，从而给自然语言算法带来了更多的可能。在随后的 2014 年，词向量算法 GloVe 诞生了。GloVe 算法的余威一直等到 BERT-flow (2020) 和 BERT-whitening (2021) 发明之后才慢慢终结。随着 BERT 及其变体的发展，词向量从 2018 年开始又经历了新一轮的技术革新。

词向量的算术运算被广泛应用在各种自然语言任务中，比如文本分类和聚类、新闻推荐、聊天机器人等等。一个非常著名的例子就是 king - man + woman = queen。这个例子说明了词向量的奇特性质。然而在 2024 年国际学术会议 ICNLP 2024 上发表的一篇论文 Human Language is Non-Manifold 上，有学者证明词向量的分布不是流形，因此有可能存在空洞等结构，所以词向量不能随意做算术运算，因为算术运算的结果有可能不在定义域内。

首先，我们介绍一下 Poincare-Hopf 定理：在一个紧致、有向的流形上定义的向量场的奇点的度等于流形的欧拉示性数。

下面我们来构造一个向量场：根据词向量的相似矩阵 sim(i,j) ，利用降维算法将词向量降维至二维平面。在平面上的每一个数据点 i 上定义 N-1 个向量 (sim(i,j)-C, sim(i,j)-C) ，其中 j 为剩余词向量集合中的某个向量，而 C 是一个常数值。可以看到，这个向量场都分布在与 y = x 平行的直线上，因而可以很容易将奇点构造成鞍点。所以如果这个向量场的定义域是紧凑、有向的流形的话，这个向量场中零点的个数就是定义域流形的欧拉示性数。这里的 C 可以是 sim(‘apple’, ‘pear’) ，也可以是 sim(‘woman’, ‘man’) 。因此，如果词向量的定义域是紧凑、有向的流形的话，那么相似性等于sim(‘apple’, ‘pear’) 的词向量对的数量等于 sim(‘woman’, ‘man’)……，这显然是不成立的。

根据刚才的问题构造，很显然，词向量分布的定义域不是紧致、有向的流形。因此，我们在做词向量的算术运算的时候要格外小心了，因为运算结果可能不在定义域内。我们目前对词向量的定义域究竟是什么形状还了解不多，我们只能说，万一定义域内存在孔洞等复杂结构，算术运算在某些区域内将不成立。

ICNLP 2024 的这篇 Human Language is Non-Manifold 论文涉及到了整个自然语言处理的理论基础。词向量不能随便做算术运算，相当于给词向量的许多应用判了死刑。这个结论告诉我们，做研究要夯实理论基础，而不能只顾着在应用理论做微创新来快速奔跑。

作者简介

汪昊，前达评奇智董事长兼创始人。前 Funplus 人工智能实验室负责人。在 ThoughtWorks、豆瓣、百度、新浪、网易等公司有超过 13 年的技术和技术管理经验。精通推荐系统、风控反欺诈、聊天机器人和爬虫等领域。在国际学术会议和期刊发表论文 44 篇。5 次获得最佳论文奖/最佳论文报告奖。2006 年 ACM/ICPC 北美落基山区域赛金牌。