鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Tokenizer不存在了？Meta开源BLT算法！

发布于 2024-12-18 10:52

浏览

0收藏

Tokenizer不存在了？Meta开源BLT算法！-AI.x社区

分词化/tokenize 化，是模型理解自然语言的最小单元。但是一些问题，如多语言、错别字、计算开销等问题，基于Byte的分词更为流行。

Meta的这个工作开源Byte Latent Transformer（BLT）的方法。

BLT 的核心思想：

直接处理原始字节：与传统的基于词元的模型不同，BLT 直接使用构成文本的最小数字单位-字节进行处理。这从根本上消除了对分词的需求，避免了分词可能带来的误差和局限性。
动态 patching：这是 BLT 的关键创新。它根据文本的复杂度将字节组合成不同长度的“patch”（可以理解为小块）。对于简单的字节序列，BLT 会使用较大的 patch，从而节省计算资源；而对于复杂的区域，则使用较小的 patch，以提高精度。这种动态调整的方式使得 BLT 能够更有效地利用计算资源。

Tokenizer不存在了？Meta开源BLT算法！-AI.x社区

Patching（分块）： 是BLT的核心，将原始字节分成更小的“块”进行处理，优化计算效率和上下文相关性。它比传统的分词更灵活。

几种常见分块方法：

固定步长分块：按固定大小分割字节，简单易用，但对复杂数据效果不佳。
空格分块：以空格为界分割，适合自然语言，但不适用于不使用空格的语言。
基于熵的分块：根据字节的不可预测性分割，更智能，能更好地处理复杂和噪声数据。
BPE分词器和增量分块：类似BPE分词，但无需固定词汇表，更灵活。

BLT整体架构，先使用Local Encoder 对字节转换成patch，然后使用Latent Transformer进行语义层面的编码学习，最后使用Local Decoder解码出字节

Tokenizer不存在了？Meta开源BLT算法！-AI.x社区

Local Encoder，负责将原始字节数据动态分组为块：

Tokenizer不存在了？Meta开源BLT算法！-AI.x社区

基于熵的分组：根据数据复杂程度（熵值高低）分配计算资源，高熵区域分配更多资源。
哈希n-gram嵌入：将字节序列（n-gram）哈希成特征，捕捉字符级模式，尤其适用于噪声或多语言数据。
交叉注意力层：汇集字节信息到块表示，捕捉局部和全局上下文。

Latent Transformer，全局处理块表示，并根据每个块的复杂度动态调整计算量：

自适应计算分配：不同于传统Transformer平等对待所有token，潜在Transformer将计算力集中在复杂数据区域，例如化学公式或多语言短语比填充词需要更多计算。
全局上下文感知：使用块因果注意力机制处理块，同时保持序列的整体上下文，确保高信息密度的块对下游任务做出有意义的贡献。

Local Decoder 将经过Latent Transformer处理的块转换回字节序列：

字节级解码：保留BLT的字节级粒度，高保真地重建文本，适用于拼写校正或低资源语言处理等需要精度的任务。
交叉注意力优化：类似于编码器，解码器使用交叉注意力层优化输出，确保生成文本的连贯性和准确性。

在与 LLaMA 3 等领先模型进行评估时，BLT 在效率和准确性方面都表现出非常好的性能，MMLU，HellaSwag，Noisy and Real-World Inputs等相比llama3都获得了更好的结果。

Tokenizer不存在了？Meta开源BLT算法！-AI.x社区

通过摒弃分词并采用基于字节的建模方法，BLT 解决了目前长期存在的一些问题：

提供了跨语言和文字的一致性表现。
确保了在处理真实世界中混乱、嘈杂的数据时的鲁棒性。
显著降低计算成本，使得更大规模、更复杂的 NLP 应用成为可能。

本文转载自 NLP前沿，作者： NLP前沿

标签

已于2024-12-18 10:54:01修改

赞

收藏

回复

举报

回复

相关推荐

万引大神: 机器学习不存在了

ceesoft • 3205浏览 • 0回复
Meta公司开源大数据模型SAM实战演练

51CTO内容精选 • 3394浏览 • 0回复
Meta开源用于数学等复杂推理AI Agent—HUSKY

Aceryt • 2890浏览 • 0回复
HCCL开源了！华为集合通信库开源链接、拓扑算法、常用接口

爱串门的小马驹 • 3119浏览 • 0回复
Meta刚开源llama 3.2多模态，就被打败了！

NLP前沿1 • 3113浏览 • 0回复
Meta开源多模态模型——Llama 3.2

Aceryt • 3143浏览 • 0回复
LLM实践系列-详谈Tokenizer训练细节

NLP工作站 • 3648浏览 • 0回复
腾讯放大招，超Meta！史上参数最大，开源专家混合模型

Aceryt • 2241浏览 • 0回复
Meta开源“记忆层”，重塑Transformer架构大模型

Aceryt • 2517浏览 • 0回复
Meta开源多模式模型，轻松混合文本和语音

Aceryt • 2065浏览 • 0回复
OmniTokenizer-视觉tokenizer生成

shizhi02 • 2058浏览 • 0回复
Agent不存在了？谁说必须用 Agent！

探索AGI • 2292浏览 • 0回复
Meta公布BLT新架构：告别token，拥抱patch

51CTO内容精选 • 2051浏览 • 0回复
Meta杨立昆引燃全民大讨论：美政府有些人被洗脑了，监管让开源变得像非法一样！

51CTO技术栈 • 2192浏览 • 0回复
DeepSeek并非完美，训练过程存在“深度诅咒”

Aceryt • 2557浏览 • 0回复
为了狙击Manus，OpenAI开源了首个Agent SDK

Halo咯咯 • 2909浏览 • 0回复
DeepSeek与Qwen组团开源了模型，冲!

PaperAgent • 1721浏览 • 0回复
Meta放大招！Llama 4三大模型来袭，开源免费还超能打

Halo咯咯 • 2614浏览 • 0回复
LeCun有了新证据！大模型思考与人类思考存在本质差别

Syrupup • 1151浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

PyMuPDF过时了，这个解析神器专治PDF疑难杂症 6天前发布
阿里开源VRAG-RL：定义下一代检索增强生成 2025-06-16 07:56:18发布

热门推荐

从原理到调参，小白也能读懂的大模型微调LoRA，不懂线性代数也没问题 0回复

本命周！MiniMax M1有多猛？网友：仅用40k思考预算就干翻Gemini，实测：真·超DS！ 1回复

AI Agents开源工具栈全解析~ 0回复

我把DeepSeek微调参数扒光了，显存和性能优化的秘密都在这 0回复

效果&成本双突破！快手提出端到端生成式推荐系统OneRec！ 0回复

上一篇： OpenAI VS Deepmind：年度最大AI对决！

下一篇： Anthropic最新研究，Claude学会“演戏”了！

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载