大语言模型论文跟踪
LV.3
跟大家一起读大语言模型论文,欢迎大家推荐论文
声望 368
关注 0
粉丝 0
私信
主帖 29
回帖
最近OpenAI推出了新的o1模型,与之前类似检索器的大语言模型(LLM)不同,o1被称为推理器模型。o1模型可能是类似于AlphaGo的强化学习训练系统,只不过所生成和评估的“动作”是思维链。依据OpenAI发布该模型的博客:o1模型与过去的大语言模型有所区别,是一个新系列的大型推理模型,代表了人工智能能力的新水平。所以,OpenAI将模型的计数器重置为1,命名为OpenAIo1模型。在o1preview和o1mini发布了一周后,作者在PlanBench测试...
1天前 63浏览 0点赞 0回复 0收藏
1.背景在量化交易领域,Alpha因子挖掘是核心焦点之一:探索和提炼那些能够预测资产收益的预测信号。图片尤金·法玛提出了有效市场假说(EfficientMarketHypothesis,EMH),指出股票价格是所有市场可用信息的反映,股票价格应当全面反映市场内所有可获取的信息。随着研究的深入,当前Alpha挖掘过程存在三大主要挑战:(1)传统方法的僵化性:金融领域中识别Alpha因子的传统方法往往依赖于启发式规则和金融专业知识。这些基于规...
9天前 266浏览 0点赞 0回复 0收藏
本来今天准备发一篇金融相关的Agent论文结果一大早上,各大群就都开始流传着各种聊天记录原来是凌晨OpenAI发布了新的o1系列模型(以下简称o1模型或o1),所以迫不及待的找了些资料赶紧学习下。图片看上去,这个o1系列模型在数学、编码、科学等一系列理科生擅长的事情上,表现比GPT4还好。目前,各大微信群的讨论大致分为两种观点:•o1太牛逼了,GPT5来了,AGI立马到来!•o1这不就是个Workflow+Agent吗?收集了各方的【小道消...
2024-09-14 13:34:59 578浏览 0点赞 0回复 0收藏
图片1.背景关系抽取(RelationExtraction,RE)是指将非结构化文本转化为结构化数据(关系三元组),在知识图谱构建等领域扮演了重要角色。但是关系抽取往往因为关系类型的多样性和句子中实体关系的模糊性等问题,导致难以实现高效的RE。这两年,大语言模型凭借其在自然语言理解和生成方面的强大能力,开始在关系抽取方面得到广泛应用。尽管取得一定进展,但往往局限于监督式微调或少量样本问答(QA)基础抽取,较少在复杂关系...
2024-09-13 12:16:05 359浏览 0点赞 0回复 0收藏
1.背景大语言模型在工业界应用的一个主要障碍就是大语言模型(LLMs)不遵循标准化输出格式。这种不一致性,使得输出解析变得更为复杂,也削弱了这些模型的可靠性。所以,大家普遍会采用结构化输出的方式来规避这一问题,也就是使用格式化限制,比如以标准化格式进行输出,比如:Json、XML等。这些限制可以通过多种方式来实现,比如指示模型遵循带有格式限制指令的指定格式,或者使用像JSON模式这样的标准解决方案。这些方案让LL...
2024-09-10 12:10:04 366浏览 0点赞 0回复 0收藏
1.当前知识图谱构建存在的问题知识图谱通过捕捉实体之间的关系来构建知识的结构化表示,在分析文本数据集和从结构化异构数据中推断知识方面具有显著优势。比如,知识图谱能够融合来自多个来源的不同数据,提供一个具有凝聚力的信息视角。还能为文本语料库的分析提供更高层次的可解释性。知识图谱的重要性不必多言,最近的GraphRAG又再一次将知识图谱掀起高潮。1.1传统知识图谱构建的问题传统的命名实体识别、关系提取和实体解析...
2024-09-09 01:00:42 217浏览 0点赞 0回复 0收藏
1.NL2SQL现状自然语言转SQL(nl2sql)技术是指自然语言查询转化为SQL查询,降低普通用户和专家用户在访问海量数据集和获取数据分析结果时的门槛。1.1我们目前处于何方?图片上图展示了过去二十年nl2sql方法的演进历程,从基于规则的方法,到基于深度神经网络的方法,再到可调的预训练语言模型(PLMs),直至大型语言模型(LLMs),整个过程伴随着数据集的发展,比如Spider和BIRD等基准测试的发展。LLMs(如GPT4和Llama2)相较于...
2024-09-05 14:12:17 229浏览 0点赞 0回复 0收藏
1.GMeLLo提出的背景1.1多跳问答多跳问答的难度往往比较大,因为不仅要追溯事实,还要聚合与串联事实。事实的来源可以是知识图谱、表格、自由格式文本,或者是这些来源的异构组合。随着大型语言模型的发展,基于提示的方法搭配可选的检索模块已成为处理多跳问答的常用手段,但以往多数工作侧重于静态信息库。1.2知识编辑知识编辑目前有两种主流方案:修改模型参数和保留模型参数。1.2.1修改模型参数可进一步细分为元学习和定位编...
2024-09-03 11:53:08 686浏览 0点赞 0回复 0收藏
1.背景检索增强生成(RAG)借助外部知识来缓解幻觉问题,保障实时知识更新。然而,大家在研究RAG算法时面临两大主要问题:•一方面,许多已发表的成果要么并非开源,要么难以搭建环境,大家不得不耗费大量时间从零开始研发新算法。•另一方面,新的RAG算法纷纷涌现,比如ITERRETGEN、RRR、SelfAsk、ActiveRAG、SelfRAG等等。然而,这些RAG算法在基本组件和评估方法上并不统一,导致大家难以准确评估改进效果。虽然现在也有很多...
2024-08-27 12:37:42 215浏览 0点赞 0回复 0收藏
1.为什么要研究LongWriter随着大语言模型的发展,越来越多的大语言模型都具备了长上下文能力,甚至有的达到了100万token。但是,相较于大家关注的海量输入,大模型的生成长篇幅的内容时就显得力不从心了。图片比如,如上图,作者在各种模型上要求生成超过2000字的内容时,基本上都没有成功。随着提示词中要求输出的内容长度的增加,输出的最终长度始终停留在2K左右。但是,在对WildChat的用户日志分析时发现,有1%的用户明确要...
2024-08-20 11:10:13 343浏览 0点赞 0回复 0收藏
1.生物学大型知识推理系统的现状和问题生物学领域的大型知识推理系统可分为两个主流(如上图(ab)所示)。图片•微调语言模型:例如bioBERT、sciBERT以及针对特定领域定制的大型语言模型,如PMCLlama和Llavamed等。这些模型基于特定领域的语料库进行训练,从而在模型中嵌入了深厚的领域知识。不过,嵌入的知识可能不完整,而且更新时计算成本较高。•检索增强生成方法:遵循信息索引和检索、信息增强及答案生成的模式。比如,P...
2024-08-08 17:44:38 415浏览 0点赞 0回复 0收藏
1.RAG系统的发展历史与问题RAG(检索增强生成)通过访问外部知识库,检索增强生成(RAG)为LLMs提供了关键的上下文信息,极大地提升了其在知识密集型任务上的表现。RAG作为一种增强手段,已在众多实际应用场景中广泛运用,涵盖知识问答、推荐系统、客户服务以及个人助手等领域。RAG技术的发展可归结为三个阶段:•起初,检索增强技术被引入,提升预训练语言模型在知识密集型任务上的表现。比如:Retro通过检索增强优化了预训练...
2024-08-06 11:12:58 437浏览 0点赞 0回复 0收藏
Rufus:亚马逊新一代智能购物助手今年2月份,亚马逊在新一代大语言模型和RAG技术的赋能下,推出了新的智能购物助手:Rufus。Rufus能够解答顾客关于购物需求、产品对比等问题,并基于这些信息提供建议,帮助顾客发现产品。Rufus采用了RAG(检索增强生成)框架,通过大型语言模型(LLM)结合一个或多个检索来源的证据来生成对顾客查询的回应。作为一个复杂的对话系统,Rufus覆盖了非常多的用户关心的领域,因此必须从庞大的数据存...
2024-08-05 01:17:14 544浏览 0点赞 0回复 0收藏
1.背景大型语言模型(LLMs)在众多语言任务中展现出非常不错的效果,然而,LLMs中的幻觉现象正极大地削弱它们的可信度和实用性。一种解决大语言模型幻觉的方法是检索增强生成(RAG),通过检索文档来提供基于检索到文档中的事实信息的更准确的用户查询答复。大语言模型幻觉(Hallucination)是指大语言模型产生错误或者误导性的信息。然而,RAG并未完全根除幻觉,这样因此激发大量研究来提高RAG的准确性。一个不完善的RAG系统,...
2024-07-29 01:10:53 500浏览 0点赞 0回复 0收藏
1.背景关系提取是指通过自然语言处理技术从非结构化文本中确定两个实体之间的关系。图片如上图所示,大多数传统的关系提取(RelationExtraction,RE)方法是为RE任务量身定制,但是这些方法往往缺乏特定领域的先验知识。特别是当可供配置资源空间太少的时候,比如FewShotRelationExtraction(FSRE)场景。另一方面,基于LLM的新方法却存在相反的问题,尽管随着模型规模和语料库的增大,LLMs拥有大量先验知识,但是由于LLMs往往...
2024-07-22 11:03:29 546浏览 0点赞 0回复 0收藏
背景图片检索技术是指解析查询,并从外部数据源中获取有关信息,在搜索、问答、推荐系统等多个领域得到广泛运用。比如谷歌、Bing、baidu都是检索技术成功应用的典型代表,这些搜索引擎可以精准筛选并提供与用户查询相匹配的网页和文档,大大提升了信息检索的效率。用过维护外部数据库中的数据,检索模型可以获得最新、准确的知识。在AIGC时代,检索基于与生成式模型结合,催生了RAG(检索增强生成技术),这一技术对提升文本内...
2024-07-18 10:57:21 1070浏览 0点赞 0回复 0收藏
1.背景检索增强生成无疑是当前最热门的LLM研究领域了,但是传统RAG存在一些局限性:•检索器容量的限制。考虑到处理效率,现有的RAG一般采用稀疏检索(比如BM25)或中等规模的嵌入模型(比如Bert)作为检索器。•只选择前K个文档。尽管最新的大语言模型扩大了上下文长度的限制,能够接受更多的上下文作为输入,但是实际性能会随着K的增加而迅速达到饱和。比如在长问答任务中,最佳的分块上下文数量大约是10。虽然更大的K可以提...
2024-07-16 09:30:39 454浏览 0点赞 0回复 0收藏
缘起非结构化文本中蕴藏了海量的数据和知识,但是想要解读这些知识却并非易事。前大语言模型时代,LDA、BertTopic等算法,是非结构化文本挖掘的利器。但是这些模型生成的主题都是基于关键词等基础文本信号的,产生的关键词、话题往往比较初级和宽泛,比如:早餐、打鼾等。这些低层次的文本分析,往往无法准确反映真实人类关心的话题。为了解决传统分析方法的局限性,提出了一种基于大语言模型的新方法LLooM,来从非结构化文本中...
2024-07-10 09:41:04 822浏览 0点赞 0回复 0收藏
最近微软终于开源了他的GraphRAG,短短7天就集齐了6.7KStar。那GraphRAG到底是个啥???图片GraphRAG的论文实际上要比代码开源早很多,论文应是今年4月份在Arxiv上发表的,但是代码是这个月1号才正式上传开源。图片项目开源地址:https:github.commicrosoftgraphrag项目帮助文档:https:microsoft.github.iographragpostsgetstarted1.为什么要提出GraphRAG?RAG,又称检索增强生成(RetrievalAugumentedGeneration)。RAG目前...
2024-07-08 07:48:20 1334浏览 0点赞 0回复 0收藏
1.思考的快与慢图片诺贝尔经济学奖得主卡尼曼在《Thinking,FastandSlow》这本书中根据前人多种双过程理论(DualProcessTheory)进行了总结和进一步解释:将人类的思考过程分为“直觉”和“推理”,这两个过程分别被称为“系统1(System1)”和“系统2(System2)”。系统一的特点是快速,不加思考、不做计算、仅凭直觉就做出判断。比如,当我们回答1+1这个问题的时候,我们的大脑可以不加思考的回答出等于2。所以系统一的特点是...
2024-07-01 11:34:18 662浏览 0点赞 0回复 0收藏
获得成就
已积累 5083 人气
获得 0 个点赞
获得 0 次收藏