作者 | 汪昊
审校 | 重楼
2013 年是自然语言处理领域发生巨变的一年。这一年,词向量算法 word2vec 诞生了。这一算法将文字符号转换为了数字向量,从而给自然语言算法带来了更多的可能。在随后的 2014 年,词向量算法 GloVe 诞生了。GloVe 算法的余威一直等到 BERT-flow (2020) 和 BERT-whitening (2021) 发明之后才慢慢终结。随着 BERT 及其变体的发展,词向量从 2018 年开始又经历了新一轮的技术革新。
词向量的算术运算被广泛应用在各种自然语言任务中,比如文本分类和聚类、新闻推荐、聊天机器人等等。一个非常著名的例子就是 king - man + woman = queen。这个例子说明了词向量的奇特性质。然而在 2024 年国际学术会议 ICNLP 2024 上发表的一篇论文 Human Language is Non-Manifold 上,有学者证明词向量的分布不是流形,因此有可能存在空洞等结构,所以词向量不能随意做算术运算,因为算术运算的结果有可能不在定义域内。
首先,我们介绍一下 Poincare-Hopf 定理:在一个紧致、有向的流形上定义的向量场的奇点的度等于流形的欧拉示性数。
下面我们来构造一个向量场:根据词向量的相似矩阵 sim(i,j) ,利用降维算法将词向量降维至二维平面。在平面上的每一个数据点 i 上定义 N-1 个向量 (sim(i,j)-C, sim(i,j)-C) ,其中 j 为剩余词向量集合中的某个向量,而 C 是一个常数值。可以看到,这个向量场都分布在与 y = x 平行的直线上,因而可以很容易将奇点构造成鞍点。所以如果这个向量场的定义域是紧凑、有向的流形的话,这个向量场中零点的个数就是定义域流形的欧拉示性数。这里的 C 可以是 sim(‘apple’, ‘pear’) ,也可以是 sim(‘woman’, ‘man’) 。因此,如果词向量的定义域是紧凑、有向的流形的话,那么相似性等于sim(‘apple’, ‘pear’) 的词向量对的数量等于 sim(‘woman’, ‘man’)……,这显然是不成立的。
根据刚才的问题构造,很显然,词向量分布的定义域不是紧致、有向的流形。因此,我们在做词向量的算术运算的时候要格外小心了,因为运算结果可能不在定义域内。我们目前对词向量的定义域究竟是什么形状还了解不多,我们只能说,万一定义域内存在孔洞等复杂结构,算术运算在某些区域内将不成立。
ICNLP 2024 的这篇 Human Language is Non-Manifold 论文涉及到了整个自然语言处理的理论基础。词向量不能随便做算术运算,相当于给词向量的许多应用判了死刑。这个结论告诉我们,做研究要夯实理论基础,而不能只顾着在应用理论做微创新来快速奔跑。
作者简介
汪昊,前达评奇智董事长兼创始人。前 Funplus 人工智能实验室负责人。在 ThoughtWorks、豆瓣、百度、新浪、网易等公司有超过 13 年的技术和技术管理经验。精通推荐系统、风控反欺诈、聊天机器人和爬虫等领域。在国际学术会议和期刊发表论文 44 篇。5 次获得最佳论文奖/最佳论文报告奖。2006 年 ACM/ICPC 北美落基山区域赛金牌。