鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 25年5月软考 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

告别传统的文档切块！JinaAI提出Late Chunking技巧

发布于 2024-9-5 12:50

浏览

0收藏

今天给大家分享JinaAI提出的一个新的技巧。

正常在处理大规模数据建索引的时候，一般我们需要先对文档进行分块，建立向量索引。而这个分块大小，设置的都是比较短的，比如512。一方面是早期bert的处理长度的限制，另一个方面是如果文本太长，包含的信息就越多，那么可能比较难用一个向量来表征出来。

告别传统的文档切块！JinaAI提出Late Chunking技巧-AI.x社区图片

对于前者，如果持续关注向量模型的同学可以发现，无论是开源的BGE系列，还是闭源的API，都在往一个较长的上下文靠齐（比如说8192）。那这就有一些矛盾了，如果工业界只需要512的上下文的向量模型，为什么还要往更长的8192模型发展呢？

对于传统的分块，类似于固定长度的分块。带来的一个比较大的问题是，上下文缺失。就像下图一样，一个句子的主语在段落开头，后面的段落/句子中，有一些代词比如 It's， The city等等来表示主语。这种情况下确实主语的句子基本上就变得比较断章取义了~

告别传统的文档切块！JinaAI提出Late Chunking技巧-AI.x社区图片

与先分块后向量化不同，JinaAI最新提出的“Late Chunking”方法是一个相反的步骤，首先将整个文本或尽可能多的文本输入到嵌入模型中。在输出层会为每个token生成一个向量表示，其中包含整个文本的文本信息。然后我们可以按照需要的块大小对对向量进行聚合得到每个chunk的embedding。这样的优势是，充分利用长上下文模型的优势，同时又不会让每个块的信息过多，干扰向量表征。

告别传统的文档切块！JinaAI提出Late Chunking技巧-AI.x社区图片

在测试中，在所有情况下，与常规的分块相比，Late Chunking提高了召回ndcg@10。在某些情况下，它的性能也优于将整个文档编码为单个嵌入。并且，文档越长，Late Chunking策略就越有效。

告别传统的文档切块！JinaAI提出Late Chunking技巧-AI.x社区图片

开源的实验代码：https://colab.research.google.com/drive/15vNZb6AsU7byjYoaEtXuNu567JWNzXOz?usp=sharing&ref=jina-ai-gmbh.ghost.io

本文转载自探索AGI，作者：猕猴桃

标签

赞

收藏

回复

举报

回复

相关推荐

Unstructured专家分享RAG应用中文档分块（Chunking）的最佳实践

Syrupup • 2365浏览 • 0回复
颠覆传统OCR轻松搞定复杂PDF的工具

恰似惊鸿 • 1700浏览 • 0回复
Cursor 实用技巧指南

玄姐聊AGI • 1208浏览 • 0回复
RAG 的未来 - 自动文档检索

探索AGI • 952浏览 • 0回复
【智汇金秋创造季】智汇成海，致敬开发者的“超级码力”！

AI.x社区官方账号 • 32.8w浏览 • 148回复
先进的多文档问答（MDQA）框架HiQA：大幅降低区分度低的复杂多文档RAG的幻觉问题

水晶花雨_32 • 921浏览 • 0回复
一个轻量级RAG文本切块项目Chonkie

PaperAgent • 860浏览 • 0回复
再看多模态RAG进行文档问答的方案

毛毛雨_11 • 624浏览 • 0回复
微调大型语言模型（LLM）的五个技巧

51CTO内容精选 • 851浏览 • 0回复
一文教你如何永久使用Cursor技巧！

唐克 • 1.9w浏览 • 1回复
减少LLM幻觉的五大技巧和方法

51CTO内容精选 • 544浏览 • 0回复
十个Cursor智能编程技巧，从小白到高手

小虎哦哦 • 2619浏览 • 0回复
文档解析技术指南：从传统Pipeline到端到端大模型

Baihai_IDP • 836浏览 • 0回复
Meta公布BLT新架构：告别token，拥抱patch

51CTO内容精选 • 269浏览 • 0回复
使用 DeepSeek 必备的十个技巧，建议收藏！

玄姐聊AGI • 338浏览 • 0回复
告别代码苦熬！吴恩达团队 VisionAgent 开启视觉开发新捷径

穿越时空111 • 634浏览 • 0回复
从此告别收藏即吃灰！DeepSeek玩转飞书的终极攻略

Bx玩AI • 291浏览 • 0回复
DeepSearcher 开源：告别传统 RAG，私有数据+DeepSeek，打造本地版 Deep Research

玄姐聊AGI • 373浏览 • 0回复
10个超级实用的DeepSeek提问技巧

数师兄 • 139浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

DeepSeek又开源R1部署最佳实践！ 5天前发布
OpenAI被逼急了？o3思维链突然开放，DeepSeek功不可没！ 2025-02-07 13:30:28发布

热门推荐

带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈 1回复

手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建议收藏！ 0回复

一文说清楚"知识蒸馏"（让“小模型”也能拥有“大智慧”） 0回复

国家队出手！DeepSeek上线国家超算互联网平台，免注册开箱即用！ 0回复

被 DeepSeek 带火的蒸馏到底是啥 0回复

上一篇： Agent的进化：RAISE如何让AI更聪明？

下一篇：一款由知识图谱引擎驱动的创新Agent框架

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载