llamaindex的BM25Retriever基于RankBM25[1]的OkapiBM25。RankBM25,两行代码实现搜索引擎RankBM25提供了多种BM25算法,如OkapiBM25,BM25L,BM25+等。它的使用也非常简单安装pipinstallrankbm25初始化以OkapiBM25为例fromrankbm25importBM25Okapicorpus["Hellotheregoodman!","ItisquitewindyinLondon","Howistheweathertoday"]分词使用空格tokenizedcorpus[doc.split("")fordocincorpus]bm25BM25Okapi(tokenizedcorpus)...
2024-06-06 11:27:16 2807浏览 0点赞 0回复 0收藏
TLDR本文将展示如何使用DuckDB的数组类型和余弦相似度函数实现高效的基于文本嵌入的向量搜索,并通过电影数据集实例演示其应用。简介现在,许多分析任务涉及文本数据,例如电子商务商店的产品评论。这些任务包括但不限于分类、聚类和相似性比较。它们主要使用文本数据的向量嵌入表示来实现矢量搜索功能。DuckDB提供了Array[2]和List[3]数据类型,可以用来存储和处理向量嵌入,以实现向量搜索。在这个系列博客的第一篇中,我们将...
2024-05-17 11:07:00 1806浏览 0点赞 0回复 0收藏
什么是RAG?检索增强生成(RAG)是指对大型语言模型输出进行优化,使其能够在生成响应之前引用训练数据来源之外的权威知识库。大型语言模型(LLM)用海量数据进行训练,使用数十亿个参数为回答问题、翻译语言和完成句子等任务生成原始输出。在LLM本就强大的功能基础上,RAG将其扩展为能访问特定领域或组织的内部知识库,所有这些都无需重新训练模型。这是一种经济高效地改进LLM输出的方法,让它在各种情境下都能保持相关性、准...
2024-05-15 14:08:15 1238浏览 0点赞 0回复 0收藏
LMStudio简介LMStudio是一款免费本地模型部署、应用软件,主要功能:•模型部署•Chat应用•兼容OpenAI的LocalServer,支持以下接口•GETv1models•POSTv1chatcompletions•POSTv1embeddings•POSTv1completionsLMStudiovsollamaLMStudio功能上比ollama+OpenWebUI弱不少(OpenWebUI的缺点就是比较难安装),有兴趣OpenWebUI的,建议看看这两篇文章•一行代码让你免魔法部署OpenWebUI•ollama使用技巧集锦没有魔法,无法下载hugg...
2024-05-07 12:13:58 8665浏览 0点赞 0回复 0收藏