放弃折腾，AutoRAG一键锁定最佳RAG技术栈！

PaperAgent

发布于 2024-10-31 14:51

浏览

0收藏

AutoRAG：RAG AutoML工具可自动为你的数据找到最佳RAG Pipeline。

放弃折腾，AutoRAG一键锁定最佳RAG技术栈！-AI.x社区

市面上有许多RAG Pipeline和模块，但不知道哪种Pipeline最适合“你自己的数据”和“你自己的用例”。制作和评估所有 RAG 模块非常耗时且难以完成。

AutoRAG 支持一种简单的方法来评估许多RAG模块组合。可以使用自己的评估数据自动评估各种 RAG 模块，并找到最适合自己用例的 RAG Pipeline。

AutoRAG支持的RAG技术栈

支持16种解析模块、10种切块模块

解析模块：PDFMiner，PDFPlumber，PyPDFium2，PyPDF，PyMuPDF，UnstructuredPDF，NaverClovaOCR，llama Parse，Upstage Document Parser，Directory，Unstructured，csv，json，unstructuredmarkdown，bshtml，unstructuredxml
切块模块：Token，SentenceTransformersToken，Character，RecursiveCharacter，Sentence，Konlpy ，Semantic_llama_index，SemanticDoubleMerging，SentenceWindow，SimpleFile

放弃折腾，AutoRAG一键锁定最佳RAG技术栈！-AI.x社区

支持40种检索、排序、生成模块

重排：UPR，Tart，MonoT5，Cohere reranker，RankGPT，Jina Reranker，Sentence Transformer Reranker，Colbert Reranker，Flag Embedding Reranker，Flag Embedding LLM Reranker，Time Reranker，OpenVINO Reranker，VoyageAI Reranker，MixedBread AI Reranker，，，Ko-reranker，，，pass_reranker
Query理解：query_decompose，hyde，multi_query_expansion，pass_query_expansion
检索：bm25，vectordb，hybrid_rrf，hybrid_cc

放弃折腾，AutoRAG一键锁定最佳RAG技术栈！-AI.x社区

支持15种评价指标

Precision，Recall，F1，MRR (Mean Reciprocal Rank)，MAP (Mean Average Precision)，NDCG (Normalized Discounted Cumulative Gain)，Token Precision，Token Recall，Token F1，BLEU，ROUGE，METEOR，Sem Score，G-Eval，Bert Score

放弃折腾，AutoRAG一键锁定最佳RAG技术栈！-AI.x社区

数据创建

RAG优化需要两种类型的数据：QA 数据集和 Corpus 数据集。

QA数据集文件 (qa.parquet)
语料库数据集文件（corpus.parquet）

QA数据集对于准确可靠的评估和优化非常重要。

语料库数据集对于 RAG 的性能至关重要。这是因为 RAG 使用语料库来检索文档并使用它生成答案。

放弃折腾，AutoRAG一键锁定最佳RAG技术栈！-AI.x社区

RAG优化步骤

放弃折腾，AutoRAG一键锁定最佳RAG技术栈！-AI.x社区

AutoRAG 如何优化 RAG 管道？

Set YAML File ->Run Evaluation -> ing -> Evaluation Done -> Best RAG Pipeline -> Deploy

放弃折腾，AutoRAG一键锁定最佳RAG技术栈！-AI.x社区

https://github.com/Marker-Inc-Korea/AutoRAG
https://arxiv.org/pdf/2410.20878
AutoRAG: Automated Framework for optimization of Retrieval Augmented Generation P

本文转载自PaperAgent

标签

AutoRAG

RAG

技术栈