新来的妹子不懂大模型中的token！已劝退...

丁师兄大模型

发布于 2025-1-9 12:29

浏览

0收藏

相信你只要了解过大模型，就听过 token 这个词儿，大家在用 ChatGPT 的 API 时，是按 token 计费的。

例如，你提问消耗了 100 token，ChatGPT 根据你的输入，回答了 200 token，那么一共消费的 token 数就是 300。

有时候看一些偏技术的文章，一些模型后面带着 8k、32k，甚至 100k，这也是指模型能处理的最大 token 长度。

既然 token 在大模型领域这么高频出现，我们不禁要问：

什么是 token？
它是怎么计算的？
一个 token 是指一个字吗？
中文和英文的 token 是一样的吗？

这篇文章我们就来聊聊这些问题，大模型中的"token"是指文本的最小处理单位，在大模型处理中，将文本划分为 token 是对文本进行分析和处理的基本步骤之一。

通常情况下，一个 token 可以是一个单词、一个标点符号、一个数字，或者是其他更小的文本单元，如子词或字符。

以下是不同 token 切分类型的介绍：

（1）单词级 token

即 token 是按照单词进行划分的。一个句子中的每个单词通常都会成为一个独立的 token。

例如，在句子"我是丁师兄"中，"我"、"是"、"丁师兄"分别是三个单词级 token。

（2）标点符号级 token

除了单词，标点符号通常也作为独立的 token 存在。这是因为标点符号在语义和语法上都具有重要的作用。

例如，在句子"token 好理解吗？"中，除了"token 好理解吗"作为一个整体的 token 外，最后的问号"？"也是一个独立的 token。

（3）子词级 token

为了更好地处理复杂的语言情况，有时候将单词进一步划分为子词级的 token。

例如，单词"unhappiness"可以被划分为子词级token "un-"、"happiness"。

更复杂一点的，现在大模型比较流行的子词级 token 还有字节对编码（BPE），这也是 ChatGPT 官方采用的 token 编码方法，它是通过合并出现频繁的子词对来实现的。

（4）字符级 token

在某些情况下，特别是在字符级别的处理任务中，文本会被划分为字符级 token。这样做可以处理字符级别的特征和模式。

例如，在句子"Hello!"中，"H"、"e"、"l"、"l"、"o"和"!"分别是六个字符级 token。

通过对文本做成一个一个的 token，LLM 模型能够更好地理解和处理语言，从而实现任务如文本生成、机器翻译、文本分类等。

因此，现在主流的大模型都会自带一个 tokenizer，也就是自动将输入文本解析成一个一个的 token，然后做编码（就是查字典，转换成数字），作为大模型真正的“输入”。

最后，那么在 ChatGPT 中，一个 token 到底是多长？

下面是一些有用的经验法则，可以帮助理解 token 的实际长度：对于英文文本，1 个 token 大约是 4 个字符或 0.75 个单词。

通常来说，也就是 1000 个 Token 约等于 750 个英文单词。对于中文，1000 个 Token 通常等于 400～500 个汉字。

本文转载自丁师兄大模型，作者：丁师兄

标签

ChatGPT

token

字符

相关推荐

首个基于Mamba的MLLM来了！模型权重、训练代码等已全部开源

轻薄滴假象 • 1899浏览 • 0回复
Meta等最新研究：多token预测，提升大模型推理效率

Aceryt • 2194浏览 • 0回复
【LLM】大语言模型在用户兴趣探索中的应用

sbf_2000 • 2311浏览 • 0回复
这就是大语言模型！ | 一文梳理LLM中的核心概念

angel • 2539浏览 • 0回复
LG开源韩语大模型Exaone 3.0，8万亿token训练数据

Aceryt • 982浏览 • 0回复
大语言模型实践中的挑战与应对

sbf_2000 • 999浏览 • 0回复
ECCV 2024 | 探索离散Token视觉生成中的自适应推理策略

轻薄滴假象 • 694浏览 • 0回复
解读AI大模型，从了解token开始

ermulong • 1393浏览 • 0回复
关于大模型在企业生产环境中的独立部署问题

AI探索时代 • 1117浏览 • 0回复
大语言模型中自我发现的苏格拉底方法

AIGC最前线 • 1040浏览 • 0回复
【智汇金秋创造季】智汇成海，致敬开发者的“超级码力”！

AI.x社区官方账号 • 32.8w浏览 • 148回复
解读AI大模型，从了解token开始

ermulong • 633浏览 • 0回复
大模型技术全面解析，从大模型的概念，技术，应用和挑战多个方面介绍大模型

AI探索时代 • 8028浏览 • 0回复
大语言模型评测中的评价指标：方法、基准和最佳实践

芝士AI吃鱼 • 3951浏览 • 0回复
AI大模型在GIS中的应用

zhishan15 • 1545浏览 • 0回复
AI赋能教育：人工智能在教育中的八大应用实例

风云2002_1 • 6088浏览 • 0回复
再谈大模型长文本分块，以及分块在RAG中的作用？

AI探索时代 • 797浏览 • 0回复
优雅谈大模型：Token与分词方法

鲁班模锤1 • 788浏览 • 0回复
仅128个token达到ImageNet生成SOTA性能！MAETok:有效的扩散模型的关键是什么？(卡内基梅隆&港大等)

angel • 402浏览 • 0回复

丁师兄大模型

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

新来的妹子不懂大模型中的token！已劝退...

（1）单词级 token

（2）标点符号级 token

（3）子词级 token

（4）字符级 token

目录