什么?词向量不能随意做算术运算!

原创 精选
人工智能
2013 年是自然语言处理领域发生巨变的一年。这一年,词向量算法 word2vec 诞生了。这一算法将文字符号转换为了数字向量,从而给自然语言算法带来了更多的可能。

作者 | 汪昊

审校 | 重楼

2013 年是自然语言处理领域发生巨变的一年。这一年,词向量算法 word2vec 诞生了。这一算法将文字符号转换为了数字向量,从而给自然语言算法带来了更多的可能。在随后的 2014 年,词向量算法 GloVe 诞生了。GloVe 算法的余威一直等到 BERT-flow (2020) 和 BERT-whitening (2021) 发明之后才慢慢终结。随着 BERT 及其变体的发展,词向量从 2018 年开始又经历了新一轮的技术革新。

词向量的算术运算被广泛应用在各种自然语言任务中,比如文本分类和聚类、新闻推荐、聊天机器人等等。一个非常著名的例子就是 king - man + woman = queen。这个例子说明了词向量的奇特性质。然而在 2024 年国际学术会议 ICNLP 2024 上发表的一篇论文 Human Language is Non-Manifold 上,有学者证明词向量的分布不是流形,因此有可能存在空洞等结构,所以词向量不能随意做算术运算,因为算术运算的结果有可能不在定义域内。

首先,我们介绍一下 Poincare-Hopf 定理:在一个紧致、有向的流形上定义的向量场的奇点的度等于流形的欧拉示性数。

下面我们来构造一个向量场:根据词向量的相似矩阵 sim(i,j) ,利用降维算法将词向量降维至二维平面。在平面上的每一个数据点 i 上定义 N-1 个向量 (sim(i,j)-C, sim(i,j)-C) ,其中 j 为剩余词向量集合中的某个向量,而 C 是一个常数值。可以看到,这个向量场都分布在与 y = x 平行的直线上,因而可以很容易将奇点构造成鞍点。所以如果这个向量场的定义域是紧凑、有向的流形的话,这个向量场中零点的个数就是定义域流形的欧拉示性数。这里的 C 可以是 sim(apple, pear) ,也可以是 sim(woman, man) 。因此,如果词向量的定义域是紧凑、有向的流形的话,那么相似性等于sim(apple, pear) 的词向量对的数量等于 sim(woman, man)……,这显然是不成立的。

根据刚才的问题构造,很显然,词向量分布的定义域不是紧致、有向的流形。因此,我们在做词向量的算术运算的时候要格外小心了,因为运算结果可能不在定义域内。我们目前对词向量的定义域究竟是什么形状还了解不多,我们只能说,万一定义域内存在孔洞等复杂结构,算术运算在某些区域内将不成立。

ICNLP 2024 的这篇 Human Language is Non-Manifold 论文涉及到了整个自然语言处理的理论基础。词向量不能随便做算术运算,相当于给词向量的许多应用判了死刑。这个结论告诉我们,做研究要夯实理论基础,而不能只顾着在应用理论做微创新来快速奔跑。

作者简介

汪昊,达评奇智董事长兼创始人。前 Funplus 人工智能实验室负责人。在 ThoughtWorks、豆瓣、百度、新浪、网易等公司有超过 13 年的技术和技术管理经验。精通推荐系统、风控反欺诈、聊天机器人和爬虫等领域。在国际学术会议和期刊发表论文 44 篇。5 次获得最佳论文奖/最佳论文报告奖。2006 年 ACM/ICPC 北美落基山区域赛金牌。

责任编辑:华轩 来源: 51CTO
相关推荐

2024-06-26 09:13:03

2010-03-09 11:15:28

Python语言教程

2009-08-11 15:51:08

C#运算符算术运算符

2023-07-17 14:29:01

Bash算术运算

2020-09-10 06:46:33

Python

2021-11-05 06:02:23

App信息应用商店

2024-04-10 12:14:36

C++指针算术运算

2011-05-24 11:04:00

2018-06-04 15:17:10

编程语言中文编程

2021-10-20 14:03:06

C++运算符类型

2019-01-21 10:34:13

Linux运算命令

2024-10-22 15:41:47

NumPyPython

2017-07-19 10:22:07

2016-02-19 16:11:54

数据科学家数据科学大数据

2024-07-01 10:16:55

搜索向量数据类型

2018-07-04 20:00:58

区块链数字审计数据完整性

2024-01-30 14:23:06

2020-09-08 09:04:26

uuidMySQL主键

2022-12-13 10:13:09

智能驾驶

2017-08-09 10:02:12

NMT神经网络自然语言处理
点赞
收藏

51CTO技术栈公众号