语言模型是对文本进行推理,文本通常是字符串形式,但是模型的输入只能是数字,因此需要将文本转换成数字形式。
Tokenization是NLP的基本任务,按照特定需求能把一段连续的文本序列(如句子、段落等)切分为一个字符串序列(如单词、短语、字符、标点等多个单元),其中的元素称为token或词语。
具体流程如下图所示,首先将文本句子切分成一个个单元,然后将子单元数值化(映射为向量),再将这些向量输入到模型进行编码,最后输出到下游任务进一步得到最终的结果。
文本切分
按照文本切分的粒度可以将Tokenization分为词粒度Tokenization、字符粒度Tokenization、subword粒度Tokenization三类。
1.词粒度Tokenization
词粒度Tokenization是最直观的分词方式,即是指将文本按照词汇words进行切分。例如:
The quick brown fox jumps over the lazy dog.
词粒度Tokenized结果:
['The', 'quick', 'brown', 'fox', 'jumps', 'over', 'the', 'lazy', 'dog', '.']
在这个例子中,文本被切分为一个个独立的单词,每个单词作为一个token,标点符号'.'也被视为独立的token。
如若是中文文本,则通常是按照词典收录的标准词汇或是通过分词算法识别出的短语、成语、专有名词等进行切分。例如:
我喜欢吃苹果。
词粒度Tokenized结果:
['我', '喜欢', '吃', '苹果', '。']
这段中文文本被切分成五个词语:“我”、“喜欢”、“吃”、“苹果”和句号“。”,每个词语作为一个token。
2.字符粒度Tokenization
字符粒度Tokenization将文本分割成最小的字符单元,即每个字符被视为一个单独的token。例如:
Hello, world!
字符粒度Tokenized结果:
['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd', '!']
字符粒度Tokenization在中文中是将文本按照每个独立的汉字进行切分。
我喜欢吃苹果。
字符粒度Tokenized结果:
['我', '喜', '欢', '吃', '苹', '果', '。']
3.subword粒度Tokenization
subword粒度Tokenization介于词粒度和字符粒度之间,它将文本分割成介于单词和字符之间的子词(subwords)作为token。常见的subword Tokenization方法包括Byte Pair Encoding (BPE)、WordPiece等。这些方法通过统计文本数据中的子串频率,自动生成一种分词词典,能够有效应对未登录词(OOV)问题,同时保持一定的语义完整性。
helloworld
假设经过BPE算法训练后,生成的子词词典包含以下条目:
h, e, l, o, w, r, d, hel, low, wor, orld
子词粒度Tokenized结果:
['hel', 'low', 'orld']
这里,“helloworld”被切分为三个子词“hel”,“low”,“orld”,这些都是词典中出现过的高频子串组合。这种切分方式既能处理未知词汇(如“helloworld”并非标准英语单词),又保留了一定的语义信息(子词组合起来能还原原始单词)。
在中文中,subword粒度Tokenization同样是将文本分割成介于汉字和词语之间的子词作为token。例如:
我喜欢吃苹果
假设经过BPE算法训练后,生成的子词词典包含以下条目:
我, 喜, 欢, 吃, 苹, 果, 我喜欢, 吃苹果
子词粒度Tokenized结果:
['我', '喜欢', '吃', '苹果']
在这个例子中,“我喜欢吃苹果”被切分为四个子词“我”、“喜欢”、“吃”和“苹果”,这些子词均在词典中出现。虽然没有像英文子词那样将汉字进一步组合,但子词Tokenization方法在生成词典时已经考虑了高频词汇组合,如“我喜欢”和“吃苹果”。这种切分方式在处理未知词汇的同时,也保持了词语级别的语义信息。
索引化
假设已有创建好的语料库或词汇表如下。
vocabulary = {
'我': 0,
'喜欢': 1,
'吃': 2,
'苹果': 3,
'。': 4
}
则可以查找序列中每个token在词汇表中的索引。
indexed_tokens = [vocabulary[token] for token in token_sequence]
print(indexed_tokens)
输出:[0, 1, 2, 3, 4]。