论文笔记分享,标题:TheSurprisingEffectivenessofTestTimeTrainingforAbstractReasoning测试时训练(TTT)是个新概念:在推理过程中使用从输入数据派生的损失暂时更新模型参数文章的结论:TTT显著提高了ARC任务上的性能,与基线微调模型相比,准确率提高了高达6倍;将TTT应用于一个8B参数的语言模型,在ARC的公共验证集上达到了53%的准确率,将公共和纯神经网络方法的最新水平提高了近25%。通过将我们的方法与最近的程序生成...
circlemindai组织开发了一个名为fastgraphrag的开源项目。这个项目的目标是提供一个高效、可解释且精度高的快速图检索增强生成(FastGraphRAG)框架。该框架专门为Agent驱动的检索工作流程设计,能够轻松融入检索管道中,提供先进的RAG功能,同时避免了构建和设计Agent工作流程的繁琐复杂性。项目的宗旨是增加全球成功的通用人工智能(GenAI)应用数量。为实现这一目标,他们开发了记忆和数据工具,使LLM应用能够利用高度专业...
好久没分享过综述了,今天分享一个最新的RAG综述,来自卡内基梅隆大学。标题:AComprehensiveSurveyofRetrievalAugmentedGeneration(RAG):Evolution,CurrentLandscapeandFutureDirections1.引言1.1RAG技术概述检索增强生成技术(RAG)主要由两个关键部分构成:其一是检索组件,主要职责是从外部数据库(如维基百科或私有库)中提取相关信息,通过密集向量表征进行文档识别;其二是生成组件,基于transformer结构,对获取的信息...
2024-11-08 15:48:08 328浏览 0点赞 0回复 0收藏
论文笔记分享,标题InferenceScalingforLongContextRetrievalAugmentedGeneration,来自googledeepmindopenaio1通过让扩展推理,让模型在推理方面达到非常优异的性能。google这篇内容,核心想验证2个点RAG系统的性能,如何从推理计算扩展中受益通过建立RAG性能和推理参数之间的关系模型来预测给定预算下的最佳测试时计算分配文中应用了2种扩展方式,DRAG,IterRAG均有效的提高了RAG系统的性能。并且,当最优分配时,增加推理计...
2024-11-05 14:39:40 188浏览 0点赞 0回复 0收藏
论文笔记分享,标题BeyondText:OptimizingRAGwithMultimodalInputsforIndustrialApplications多模态VL模型很早的就进入了这个圈子,早的有LLava,近一点的gpt4o。这个内容的主要想论证一个事情,在工业界,同时包含文本和图像的RAG系统,相比于单文本的RAG系统会提高整体性能?当然这个问题的结论是,会提高,所以还额外做了一些,优化多模态流程探索的工作。首先,多模态的结合,2种模式,一种是图片保持不变,建立起图片向量...
2024-10-30 15:23:54 267浏览 0点赞 0回复 0收藏
大型语言模型(LLMs)在固定数据集上进行训练,其知识在最后一次训练更新时就已固定。ChatGPT的常规用户可能已经注意到其众所周知的局限性:“训练数据截止到2021年9月”。这种局限性会导致模型产生不准确或过时的响应,因为它们会“幻觉”信息。在不重新训练或微调的情况下,用新信息更新模型或增强其上下文理解能力,在资源和人力方面都极具挑战。检索增强生成(RAG)检索增强生成(简称RAG)是一种通过整合来自外部可靠知识库的信...
2024-10-25 14:09:52 283浏览 0点赞 0回复 0收藏
这篇文章的结论是:LLM无法进行真正的推理。并做出了一系列的实验论证,大模型仅仅是记住了目标序列。10月份有很多文章在论证这个事情。比如之前写过一篇推文介绍大模型在规划的能力上表现仍然非常糟糕(现实再次给大模型带来沉重打击)。后来在《PROCBENCH:BENCHMARKFORMULTISTEPREASONINGANDFOLLOWINGPROCEDURE》中验证了一个结论:在没有相关领域经验或知识的情况下,LLMLRM似乎无法遵循基本指令,尤其是在指令长度增加时。...
2024-10-25 14:01:55 180浏览 0点赞 0回复 0收藏
论文笔记分享,标题:AstuteRAG:OvercomingImperfectRetrievalAugmentationandKnowledgeConflictsforLargeLanguageModels,来自googlecloud在RAG的时候,再好的recall+rerank+筛选策略,都会出现知识冲突,或query无关的候选知识的情况。文中称这种现象为“不完美检索”。通常,当检索精度不低于20%时,RAG是有帮助的。当检索精度接近0时,带有RAG的模型的表现要比没有RAG的模型差。添加更多的检索段落并不一定导致更好的性能,...
2024-10-22 13:03:33 271浏览 0点赞 0回复 0收藏
最近,神秘大佬开源一个框架entropix,2周不到收获2.4kstar。Entropix的核心思想是通过量化模型的不确定性,来做出更多的“思考”,从而获得更好的效果。当大模型在预测下一个词时,模型会为每个词分配一个可能的概率。如果模型特别笃定的那个token的概率都很低,也就是不确定性很高的时候,熵越高。很多时候,想减少模型的幻觉时,可能会将模型的采样超参数如temperature设为0。但是这样做并不一定能提高模型不产生幻觉输出的概...
2024-10-15 15:06:43 290浏览 0点赞 0回复 0收藏
论文笔记分享,标题:LLMSSTILLCAN’TPLAN;CANLRMSAPRELIMINARYEVALUATIONOFOPENAI’SO1ONPLANBENCH一个偏实验性的文章,这篇文章的主要的结论是。LLMs不擅长规划,LRMs看似有希望,但是希望不大当故事看把规划简单定义就是说,在面对一些较复杂的开放式问题时,需要进行一些搜索以确定最佳的解决方案。这个过程,不仅仅是思考可行的方向,还需要将问题分解成更简单的任务。当使用目前最牛的LLM来测试这些能力时候,如下图,对...
2024-10-12 14:12:49 251浏览 0点赞 0回复 0收藏
小长假结束了本来打算梳理一下假期的信息的,但是内容有点多,放弃了今天这个标题对应假期的2个新闻。思科的大佬,假期发了一篇medium博客,使用2个复杂数据集,进行了一系列模型的基准测试。Blog:https:medium.comharishhacker3010canwemakeanysmalleropensourceaimodelssmarterthanhuman1ea507e644a0Prompt:https:gist.github.comphilschmid34747bf5bc8280f3a5f10f5fd8d1cd4bGithub:https:github.comharishsg993010LLMResearc...
2024-10-09 13:05:26 391浏览 0点赞 0回复 0收藏
2个系列:多模态:Llama3.211B和90B,支持视觉多模态,LLama终于有了眼睛!端侧小模型:LLama3.21B和3B对于新增的多模态模型,只新增了图像编码器,将其集成到预训练模型中,没有更新语言模型参数,即插即用!对于Llama3.2中的1B和3B模型,直接使用8B、70B的logits蒸馏,比较常见的蒸馏方式,就是废卡。图片虽然LLama系列终于有了视觉。但是,今天allenai开源了多模态Molmo72B和7B模型。并且在视觉方面的表现全面超过了3.2,太...
2024-09-29 13:05:37 601浏览 0点赞 0回复 0收藏