从零实现大模型-GraphRAG，构建LLM中的关系数据库原创

鱼虫子

发布于 2024-7-17 07:04

浏览

0收藏

传统RAG

LLM预训练和微调一般都是基于公开的互联网数据，不可能包含公司内部私有数据，如果你问有关某公司的运营情况，直接基于模型参数生成的回答可能和胡说八道没什么两样。

RAG（Retrieval-Augmented Generation）的思想就是将私有数据作为参考信息传递给LLM。这些私有数据除了作为一种补充信息，也可以作为一种限制，能避免LLM产生幻觉。

参考信息一般以文本、图片等非结构化形式存在。

RAG的流程是：

从零实现大模型-GraphRAG，构建LLM中的关系数据库 -AI.x社区

1.首先要将文本划分成片段，然后将片段转换成向量存储到向量数据库中备用，这个向量就是这段文本语义信息的数字表示。

2.将用户查询转换成向量。并与所有文本片段向量进行相似度计算，取出top k个片段。

3.将用户查询和k个文本片段组织成特定prompt格式输入到LLM中。

（计算文本的向量可以调用API或者使用像llamaindex这样的库）

GraphRAG

但传统的RAG仍有一些限制。

例如，基于某个公司的运营数据搭建RAG，由于LLM上下文大小的限制，划分的文本片段不可能太大，所以每个文本片段不可能包含太多信息。

如果你问某个员工去年的销售业绩，基于RAG，LLM很可能会给出准确回答，因为某个文本片段很可能包含了某个员工的年终总结信息。

但如果你问该员工所在团队去年的销售情况呢？就算某个文本片段包含了该团队的销售数据，LLM也很难通过该员工找到团队的其它成员。

微软最近提出的GraphRAG(Graph-based Retrieval Augmented Generation)就是解决这个问题。

GraphRAG就是将图和传统的RAG结合了起来。

构造知识图谱

图是由节点和边组成的，节点可以表示各种实体，边表示实体之间的关系。

GraphRAG的核心就是构造知识图谱，可以通过GPT4或者使用像llamaindex（KnowledgeGraphIndex）这样的库构造知识图谱。

从零实现大模型-GraphRAG，构建LLM中的关系数据库 -AI.x社区

将公司运营文档构造成知识图谱：

1.识别出文档中包含的实体以及实体之间的关系（员工，同事）

2.将实体进行聚类（同组同事）

3.对每个聚类进行总结（销售情况）

4.将实体进行向量化，转换到图向量空间

5.提取实体对应的原始文本，并转换成向量

Query

当用户提问时，首先在知识图谱中找到与用户提问语义相关的实体，同时找到与实体相关的原始文本，最后将这些信息组织成特定prompt格式输入给LLM。

从零实现大模型-GraphRAG，构建LLM中的关系数据库 -AI.x社区

References

[1] https://github.com/microsoft/graphrag

[2] https://microsoft.github.io/graphrag/

[3] https://www.microsoft.com/en-us/research/blog/graphrag-unlocking-llm-discovery-on-narrative-private-data/

本文转载自公众号人工智能大讲堂

原文链接：https://mp.weixin.qq.com/s/q2BRAiivIFNXWyQIbwx18Q

标签

RAG

GraphRAG

LLM

相关推荐

怎么看大模型、RAG、Agent、知识库、向量数据库、知识图谱、AGI的区别和联系？

玄姐聊AGI • 5068浏览 • 0回复
一文搞懂大模型、RAG、函数调用、Agent、知识库、向量数据库、知识图谱、AGI的区别和联系！！

玄姐聊AGI • 1.2w浏览 • 0回复
从零实现大模型-GPT2指令微调

鱼虫子 • 3343浏览 • 0回复
从零实现大模型-BERT微调

鱼虫子 • 2513浏览 • 0回复
从零实现大模型-RLHF：Reinforcement Learning from Human Feedback

鱼虫子 • 3724浏览 • 0回复
从零实现大模型-GPT2任务微调

鱼虫子 • 2891浏览 • 0回复
一文搞懂大模型、RAG、函数调用、Agent、知识库、向量数据库、知识图谱、AGI的区别和联系！！

玄姐聊AGI • 2948浏览 • 0回复
LangChain-RAG必备：向量数据库如何CRUD

ermulong • 2041浏览 • 0回复
RAG与本地知识库，向量数据库，以及知识图谱的联系与区别

AI探索时代 • 4408浏览 • 0回复
利用 Schemonic 优化数据库模式描述以降低大语言模型成本

AIGC前沿技术追踪 • 1883浏览 • 0回复
利用Milvus向量数据库，带你实现GraphRAG

AI科技论谈 • 2072浏览 • 0回复
大模型检索增强生成之向量数据库的问题

AI探索时代 • 1776浏览 • 0回复
LanceDB：为 AI 应用打造的高效嵌入式向量数据库

Syrupup • 6625浏览 • 0回复
怎么提升向量数据库的召回准确率

AI探索时代 • 1872浏览 • 0回复
别再将LLM当成数据库了

51CTO内容精选 • 1818浏览 • 0回复
图数据库的剪枝在大型语言模型中的知识表示

51CTO内容精选 • 1296浏览 • 0回复
向量相似性与图数据库的强强联合

Halo咯咯 • 1798浏览 • 0回复
爆火 | API 终将淘汰，MCP+LLM+向量数据库才是 Agent 开发新范式

玄姐聊AGI • 1551浏览 • 0回复
RAG实战 | 向量数据库LanceDB指南

周末程序猿 • 1046浏览 • 0回复

鱼虫子

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

从零实现大模型-GraphRAG，构建LLM中的关系数据库原创

传统RAG

GraphRAG

构造知识图谱

Query

References

目录

51CTO

51CTO博客

51CTO学堂

从零实现大模型-GraphRAG，构建LLM中的关系数据库 原创

传统RAG

GraphRAG

构造知识图谱

Query

References

目录

从零实现大模型-GraphRAG，构建LLM中的关系数据库原创