鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

一文彻底搞懂GraphRAG

发布于 2024-9-3 11:34

浏览

0收藏

自ChatGPT引领人工智能的新潮流以来，我们见证了大型语言模型（LLM）与私有数据结合的巨大潜力。这种结合不仅催生了功能强大的AI应用，也标志着AI专业能力的提升。

然而，随着深入探究，我们发现传统的文本嵌入检索技术（Text2Vec RAG）在处理知识库问答时仍存在局限。本文阐述如何通过图形RAG技术，有效填补这一空白，实现对知识库的深入挖掘和全面理解。

1 局部和全局问题

文本嵌入检索技术让LLM应用能够稳定地根据知识库内容回答问题。Text2Vec的优势在于能够从知识库中提取关键事实，直接回答用户的问题。但这种方法也有局限，它依赖于查询的具体性，且难以处理跨文档的抽象问题。

想象一下，有一个详尽的诺贝尔和平奖得主知识库。问系统“2023年的诺贝尔和平奖得主是谁？”这种问题，系统能迅速给出答案，因为这些信息在知识库中清晰可查。但若问“过去十年最杰出的诺贝尔和平奖得主有哪些？”系统就可能束手无策，尤其是当问题需要跨文档整合信息时。例如，用户可能好奇“最近几届诺贝尔和平奖得主主要关注哪些议题？”如果这些议题在知识库中没有直接提及，传统的文本嵌入检索就难以给出满意的答案。

因此，引入图形RAG，这不仅能够解决具体的局部问题，还能应对需要全局视角的复杂问题。

知识图谱通过半结构化的层次方法组织信息，允许我们在数据集的全局层面上进行推理，识别节点间的复杂关系。图形RAG利用这种结构，通过识别紧密相连的节点群体——即社区，来构建对用户查询的深入理解。

图形RAG的流程简化为：

图形提取：从数据中抓取节点和边，形成知识图谱。
图形存储：将图谱存储于数据库，保证信息的管理和检索。
社区检测：发现图中的社区，每个社区代表一个主题。
社区报告：为每个社区制作报告，梳理节点和边的关系。
上下文构建：通过Map Reduce技术整合社区信息，为用户查询提供精准上下文。

这一流程优化了信息检索，对用户复杂查询的响应更加精准和全面。

一文彻底搞懂GraphRAG-AI.x社区

2 构建知识图谱：图形提取

构建对非结构化知识库的抽象理解，首先需要提取构建知识图谱的关键节点和边，这一过程可以通过大型语言模型（LLM）自动化实现。挑战在于甄别哪些概念和关系是有价值的。

例如，从一篇关于沃伦·巴菲特的文章中提取信息，他的持股和出生地等信息显然是关键实体和边，而他上次董事会会议上领带的颜色则可能无关紧要。关键在于根据应用场景和领域定制提取提示，这将直接影响从数据中提取的信息类型。

设定提取提示可以通过两种方式：一是多轮提示，即提供一系列输入输出样例让LLM学习；二是LLM微调，即在特定数据集上训练模型以提高性能。虽然微调可能更有效，但也更耗费时间。

3 图谱数据的存储与管理

已经成功设置LLM的提取流程。面对存储问题，虽然Neo4j和Arango DB是图形数据库的首选，但学习新的查询语言可能耗时。

为了简化，可以使用graph2nosql，这是一个Python接口，支持在NoSQL数据库中存储图形数据，并支持基本的图形操作，如节点管理、图形可视化和社区检测。这样，可以避免复杂的数据库技术栈，同时保持数据的灵活性和易用性。

一文彻底搞懂GraphRAG-AI.x社区

graph2nosql 数据模型

4 社区检测

完成图形数据的提取与存储后，紧接着的任务便是识别图中的社区结构。社区由紧密相连的节点群组成，其内部联系远比与图外节点更为频繁。这一识别过程可以通过多种社区检测算法实现。

Louvain算法是其中一种广泛应用的方法，它通过不断迭代合并节点，形成社区，直至达到优化的模块度标准——模块度是评价社区划分优劣的一个重要指标。

除此之外，还有几种知名的社区检测算法，包括：

Girvan-Newman算法
Fast Unfolding算法
Infomap算法

这些算法各有优势，适用于不同的场景和需求。

5 社区报告生成

社区报告基于已识别的社区，提炼出节点和边的关键信息，帮助我们把握知识库的核心主题。每个社区都代表一个主题，为解答相关问题提供具体上下文。社区报告是跨文档信息整合的起点，有助于构建对知识库的整体理解。

例如，诺贝尔和平奖得主的社区报告可能会突出显示与获奖者相关的主要议题。而"发现"功能则进一步深化了这些报告，提供了更细致的洞察。

为了确保社区报告的相关性和准确性，应根据具体应用场景进行细致的提示设计或模型微调。

6 上下文构建：Map Reduce的应用

在处理查询时，采用map-reduce模式来构建从中间到最终的响应。

Map阶段：这里，我们将每个社区与用户查询配对，利用社区报告来生成对查询的初步答案。同时，还会让LLM评估社区报告对用户查询的相关性。

Reduce阶段：随后，根据生成的中间响应的相关性得分进行排序，筛选出最相关的前k个社区。这些社区的报告，连同节点和边的信息，将作为最终LLM提示的上下文，确保答案的准确性和深度。

7 结语

Text2vec RAG在知识库问答方面存在局限，而图形RAG则能巧妙地补上这一短板。它通过社区报告为知识库提供了更深层次的理解，帮助团队快速定位关键信息，提升效率。然而，这种方法在调用LLM时成本较高，可能带来延迟。

未来，RAG系统可能会采用混合策略，根据查询类型选择最合适的工具，如利用社区报告作为上下文候选。这一领域的探索仍在进行中。

本文转载自 AI科技论谈，作者： AI科技论谈

标签

赞

收藏

回复

举报

回复

相关推荐

一文带你了解OpenAI Sora

381972426 • 2288浏览 • 0回复
俯视LLM的灵魂：一文搞懂稀疏自动编码器

鲁班模锤1 • 4996浏览 • 0回复
一文彻底理解大模型 Agent 智能体原理和案例

玄姐聊AGI • 3551浏览 • 0回复
一文搞懂大模型、RAG、函数调用、Agent、知识库、向量数据库、知识图谱、AGI的区别和联系！！

玄姐聊AGI • 3034浏览 • 0回复
一文彻底理解大模型 Agent 智能体原理和案例

玄姐聊AGI • 3461浏览 • 0回复
一文读懂GraphRAG大模型知识图谱

数字化助推器 • 3290浏览 • 0回复
一文详解MHA、GQA、MQA原理

大模型自然语言处理 • 3265浏览 • 0回复
GraphRAG新增文件对已有知识库影响有多大？缓存又是何时失效？一文带你探究到底

AI博物院 • 2034浏览 • 0回复
一文搞懂AI大模型的四个核心技术

数字化助推器 • 2366浏览 • 0回复
一文带你了解机器学习

宝宝数模AI • 1457浏览 • 0回复
一文读懂 DeepSeek-V3 技术报告

xuxiangda • 4023浏览 • 0回复
带你一文读懂爆火的 DeepSeek-R1 新模型技术，为何震动了全球 AI 圈

玄姐聊AGI • 6133浏览 • 1回复
一文搞懂 DeepSeek - 强化学习和蒸馏

玄姐聊AGI • 2557浏览 • 0回复
一文搞懂 DeepSeek 的蒸馏技术和案例实践

玄姐聊AGI • 5253浏览 • 0回复
一文读懂AI智能体的原理类型、功能优势和最常见使用场景

数字化助推器 • 4058浏览 • 0回复
一文揭秘GPT：AI是如何彻底改变我们的？

唐克 • 1471浏览 • 0回复
一文吃透自注意力机制

人工智能训练营 • 2432浏览 • 0回复
一文读懂AI智能体融合与数据隐私安全问题

数字化助推器 • 798浏览 • 0回复
一文轻松搞懂 MHA、MQA、GQA 和 MLA

智驻未来 • 615浏览 • 0回复

LV.6

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

111

帖子

1104

声望

1

粉丝

关注

最近发布

只需5分钟，教你用Python搭建MCP Server 7天前发布
免费使用DeepSeek-V3–0324大模型，Cursor编程更上一层楼 2025-03-28 00:02:26发布

热门推荐

只需5分钟，教你用Python搭建MCP Server 0回复

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

Dify从入门到高阶系列二：手把手教学！超详细的Dify知识库配置全攻略 0回复

上一篇：基于GPT-4o-mini，使用LangChain打造AI搜索智能体

下一篇： 10款杀手级AI编程助手，Python开发更轻松

社区精华内容

目录

1 局部和全局问题
2 构建知识图谱：图形提取
3 图谱数据的存储与管理
4 社区检测
5 社区报告生成
6 上下文构建：Map Reduce的应用
7 结语

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载