鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

文本分块哪家强？LumberChunker、语义分块、段落级、循环分块、HyDE、命题级

发布于 2024-6-28 14:09

浏览

0收藏

检索增强生成（RAG）系统通过将模型生成与上下文相关文档相结合来提高信息的准确性，文本内容如何分割成“块（chunk）”对检索质量有显著影响。

用于问答实验的RAG Pipeline，一些tricks，混合检索：BM25-Top3、密集检索-Top15，BM25的Top1排在前面，Top2-3排在最后；大模型重排序：如果上下文包含六个或更多块，从中间点开始反转块的顺序。

文本分块哪家强？LumberChunker、语义分块、段落级、循环分块、HyDE、命题级-AI.x社区

LumberChunker方法利用LLM动态地将文档分割成语义独立的块。这种方法基于一个前提：当内容块的大小可以变化时，检索效率会提高，因为这样可以更好地捕捉内容的语义独立性。LumberChunker通过迭代地提示LLM，在一系列连续段落中识别内容开始转变的点，从而确保每个块在上下文中是连贯的，但与相邻块有所区别。

LumberChunker遵循一个三步流程。首先，按段落对文档进行分割。其次，通过追加连续的块，创建一个组（Gi），直到超过预定义的标记计数θ。最后，将Gi作为上下文输入到Gemini，Gemini确定显著内容转变开始出现的ID，从而定义了Gi+1的开始和当前块的结束。这个过程在整个文档中循环重复。

文本分块哪家强？LumberChunker、语义分块、段落级、循环分块、HyDE、命题级-AI.x社区

实验结果表明，LumberChunker在检索性能上优于其他竞争性基线，特别是在DCG@20指标上，比最接近的竞争者（循环分块：Recursive Chunking）高出7.37%；其它的竞争者分别是：语义分块：Semantic Chunking、段落级：Paragraph-Level、HyDE、命题级：Proposition-Level。

在GutenQA（3000个QA）上使用不同粒度的问题和检索语料库段落的段落检索性能（DCG@k和Recall@k）。每列中的最佳得分以粗体突出显示。

文本分块哪家强？LumberChunker、语义分块、段落级、循环分块、HyDE、命题级-AI.x社区

当LumberChunker集成到RAG流程中时，它被证明比其他分割方法和竞争性基线更有效。

文本分块哪家强？LumberChunker、语义分块、段落级、循环分块、HyDE、命题级-AI.x社区

LumberChunker不足：

尽管它在性能上优于所有基线，但它需要使用LLM，这使得它在成本和速度上比传统方法更高、更慢。

文本分块哪家强？LumberChunker、语义分块、段落级、循环分块、HyDE、命题级-AI.x社区

LumberChunker专门设计用于叙事文本，对于高度结构化的文本，可能不是最优解决方案。

附录：

LumberChunker Gemini Prompt示例，用于书籍《小熊维尼》由A. A.米尔恩著

文本分块哪家强？LumberChunker、语义分块、段落级、循环分块、HyDE、命题级-AI.x社区

与表2中的例子不同，表3段落中的代词“He”不能被准确共指，导致命题(propositions)有些模糊。因此，如果用户问到“埃隆·马斯克家族中谁曾经做过牛仔表演者？”这样的问题，一个仅使用命题作为检索单元的模型将无法提供准确的回答。

文本分块哪家强？LumberChunker、语义分块、段落级、循环分块、HyDE、命题级-AI.x社区

在整个RAG流程中，除了Chunking，还涉及Embedding、Indexing等等，PaperAgent团队RAG专栏进行过详细的归纳总结：高级RAG之36技（术），可私信留言试看：RAG专栏。

https://github.com/joaodsmarques/LumberChunker
https://arxiv.org/pdf/2406.17526
LumberChunker: Long-Form Narrative Document Segmentation1.
2.
3.

本文转载自PaperAgent

标签

赞

收藏

回复

举报

回复

相关推荐

微软炸裂级单图生数字人，Sora同款思路，“比AI刘强东还真”

Crystalcxt • 3001浏览 • 0回复
三万字长文带你揭开神秘面纱（数据级、模型级和系统级）

angel • 1.1w浏览 • 0回复
ICRA 2024：基于语义增强和动作分块实现的样本高效机械臂操作——RoboAgent

AIGC最前线 • 3134浏览 • 0回复
SIGGRAPH`24 | 毫米级接近真实动作生成！LGTM：文本驱动！(深大&快手&字节)

angel • 3200浏览 • 0回复
信息抽取哪家强？ChatGLM3、Qwen、Baichuan2、ChatGPT

PaperAgent • 4891浏览 • 0回复
RAG技术性能提升之文档分块策略方案

AIGC观察者 • 4448浏览 • 0回复
Unstructured专家分享RAG应用中文档分块（Chunking）的最佳实践

Syrupup • 3960浏览 • 0回复
图像文本擦除无痕迹！复旦提出EAFormer：最新场景文本分割新SOTA！(ECCV`24)

angel • 2129浏览 • 0回复
轻量级级表格识别算法模型-SLANet

大模型自然语言处理 • 2276浏览 • 0回复
为什么分块在RAG技术中很重要？但又很没有存在感？

AI探索时代 • 1559浏览 • 0回复
再谈大模型长文本分块，以及分块在RAG中的作用？

AI探索时代 • 2291浏览 • 0回复
如何优化大型语言模型（LLM）的分块策略

51CTO内容精选 • 2083浏览 • 0回复
提升RAG性能：分块后，Chunk Enrichment的2个关键优化步骤不可错过

凝固的雨_1 • 1886浏览 • 0回复
DeepSeek大模型一体机哪家强？

数字化助推器 • 3214浏览 • 0回复
传统分块已死？Agentic Chunking拯救语义断裂，实测RAG准确率飙升40%，LLM开发者必看！

AI博物院 • 2264浏览 • 0回复
RAG常见13种分块策略大总结（一览表）

大模型自然语言处理 • 1312浏览 • 0回复
RAG分块优化之语义分块方法CrossFormer模型技术思路

大模型自然语言处理 • 713浏览 • 0回复
企业级RAG如何实现权限控制？Dify 1.1.0 新版本元数据保姆级教程！

AI博物院 • 623浏览 • 0回复
基于文本结构分块 - 文本分块（Text Splitting），RAG不可缺失的重要环节

AI取经路 • 331浏览 • 0回复

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

帖子

声望

粉丝

关注

最近发布

Llama4 刚开源就要被网友玩坏了！ 2025-04-08 07:20:33发布
DeepSeek与Qwen组团开源了模型，冲! 2025-03-26 09:39:51发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

MCP协议之MCP-server(sse方式)实践 0回复

上一篇： RAG生成任务：Base LLM竟然比Instruct LLM高出20%

下一篇： LazyLLM：低代码构建多Agent大模型应用的开源项目

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载