公众号矩阵

移动端

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

arnoldzhw

LV.3

这个用户很懒，还没有个人简介

帖子 33

声望 302

关注 0

粉丝 0

社区头条作者

私信

关注

主帖 33

回帖

Search-R1：让大模型学会“检索+推理”的新范式

今天分享一篇伊利诺伊大学的文章，标题为：SearchR1:TrainingLLMstoReasonandLeverageSearchEngineswithReinforcementLearning（SearchR1：利用强化学习训练LLM进行推理并利用搜索引擎）。这篇文章是关于如何训练大型语言模型（LLMs）有效地利用搜索引擎来增强其推理和文本生成能力。论文提出了一个名为SEARCHR1的框架，该框架仅仅通过强化学习（RL）让LLM学习如何在逐步推理过程中自主生成搜索查询并与实时检索交互。该方法特...

2天前 204浏览 0点赞 0回复 0收藏

利用LLM做论文review到哪一步了？来看看DeepReview吧！

社区头条

今天分享一篇西湖大学张岳老师的一篇利用合成推理数据做论文评审文章，Title:DeepReview:ImprovingLLMbasedPaperReviewwithHumanlikeDeepThinkingProcess：通过合成类人深度思考过程改进基于LLM的论文评审效果。这篇文章探索了如何利用大型语言模型（LLM）来改进论文评审过程，提出了一个多阶段框架DeepReview，通过结合结构化分析、文献检索和基于证据的论证，模拟专家评审员的深度思考过程，从而提高LLM在论文评审中的可靠性...

2025-03-14 00:48:05 774浏览 0点赞 0回复 0收藏

LMEDR对话模型：引入自然语言推理数据提升对话模型的连贯性和一致性

一、概述title：YouTrulyUnderstandWhatINeed:IntellectualandFriendlyDialogueAgentsgroundingKnowledgeandPersona论文地址：https:aclanthology.org2022.findingsemnlp.75代码地址：https:github.comdlawjddn803INFO1.1Motivation以前的研究将知识或个人资料混合融入预先训练的语言模型。其同时考虑知识和人物角色的能力仍然是有限的，导致生成结果出现幻觉，并且使用人物角色的方法也很被动。1.2Methods提出一种有效的agent...

2025-03-04 10:28:34 794浏览 0点赞 0回复 0收藏

小而美！1B模型如何通过测试时优化逆袭405B LLM？

今天分享一篇来自上海人工智能实验室、清华大学、哈尔滨工业大学和北京邮电大学联合的一篇文章，标题是：Can1BLLMSurpass405BLLMRethinkingComputeOptimalTestTimeScaling（1B的LLM能否超越405B的LLM？重新思考计算最优的测试时缩放）。这篇文章研究了大型语言模型（LLMs）在「推理阶段通过增加计算量来提高性能的测试时缩放」（TestTimeScaling,TTS）方法。作者们「系统地分析了策略模型、过程奖励模型（PRMs）和问题难度如何...

2025-02-24 11:01:35 868浏览 0点赞 0回复 0收藏

DeepSeek-R1技术大揭秘：论文核心原理拆解与模型性能突破关键

社区头条

今天分享DeepSeekR1，Title:DeepSeekR1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning：通过强化学习激励LLM的推理能力。这篇文章介绍了DeepSeek的第一代推理模型DeepSeekR1Zero和DeepSeekR1。DeepSeekR1Zero模型通过大规模强化学习(RL)训练，没有监督微调(SFT)作为初步步骤，展示了RL的潜力及其带来的卓越的推理能力。通过强化学习，DeepSeekR1Zero自然而然地涌现出许多强大而有趣的推理行为。为了进一步优...

2025-02-14 13:29:37 1695浏览 0点赞 0回复 0收藏

NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法

还在为大模型推理速度慢、成本高而烦恼吗？这篇来自CMU和清华大学的论文给你带来了一个颠覆性的解决方案！他们发现，在推理大型语言模型时，“大力出奇迹”不再是真理！通过深入研究推理过程中的计算与性能关系，他们提出了“推理缩放定律”，并革命性地推出了一种名为REBASE的全新算法。REBASE就像一位聪明的向导，能够巧妙地利用奖励信号，指引模型在推理的迷宫中高效探索，避免了传统方法中耗时费力的盲目搜索。实验结果令...

2025-02-06 14:25:07 1086浏览 0点赞 0回复 0收藏

对话数据合成：清华利用多Agent合成大量医疗对话数据显著提升LLM在医疗场景效果

大家好，我是HxShine今天分享一篇来自清华的一篇利用Agent合成数据的文章，标题为《AgentHospital:ASimulacrumofHospitalwithEvolvableMedicalAgents》。这篇文章介绍了一种名为AgentHospital的仿医院模拟系统，该系统中患者、护士和医生都是由LLM驱动。文章的核心目标是使医生Agent能够在模拟环境中学习如何治疗疾病，从而验证社会模拟过程是否可以提高LLMAgent在特定任务上的性能。实验表明，随着在模拟过程中积累的样本越来...

2025-01-22 12:26:56 1173浏览 0点赞 0回复 0收藏

多Agent思想显著提升小模型工具调用能力

今天分享一篇阿里的利用Agent思想做工具调用的文章，标题为《SmallLLMsAreWeakToolLearners:AMultiLLMAgent》。其提出的多LLM代理微调框架，将工具调用拆解为三个agent（Planner、Caller、Summarizer），并结合一个二阶段的微调策略。对比单个LLM表现更为出色，性能也更为稳定，并且能够超过像ChatGPT、GPT4等闭源模型，证明了多agent思路在工具调用上的有效性。除了工具调用，或许本文的方法也可以拓展到问答的其他场景，大家...

2025-01-13 11:02:04 1424浏览 0点赞 0回复 0收藏

ACL2024 ｜利用GPT4构建的多Agent系统自动发现科学假设

今天分享一篇来自南阳理工的一篇文章《LargeLanguageModelsforAutomatedOpendomainScientificHypothesesDiscovery》。本研究的目标是探索如何使用大型语言模型，尤其是GPT4，来自动发现科学假设。目前假设性归纳研究的局限性在于使用的数据不是原始网络语料库，而是手动选择后的句子，导致了来源较为封闭；同时，现有的假设标注大多是常识性知识，任务挑战性不足。本文提出了首个针对社会科学学术假设发现的自然语言处理（NLP）...

2025-01-03 12:34:30 1362浏览 0点赞 0回复 0收藏

NeurIPS 2024 ｜ REBASE，比MCTS更高效的Inference Scaling算法

2024-12-25 11:42:25 1778浏览 0点赞 0回复 0收藏

ICLR 2023 | ReAct：首次结合Thought和Action提升大模型解决问题的能力

大家好，我是HxShine。今天分享一篇普林斯顿大学和GoogleResearch,BrainTeam合作的一篇文章，REACT:SYNERGIZINGREASONINGANDACTINGINLANGUAGEMODELS[1]：在语言模型中协同Reasoning推理和Action行动。其在大语言模型中将Thought推理过程和Action行动结合，一方面可以通过Action从外部获取额外信息，另一方面可以通过Thought过程，细化任务，搜索有用信息，过滤无用信息，从而来提高大模型的表现。一、概述Title：REACT:SYNERG...

2024-12-17 12:15:45 2492浏览 0点赞 0回复 0收藏

探索Sora背后秘密：结合OpenAI Sora技术报告来看其能力和技术点

精华

最近被Sora刷屏，今天结合OpenAISora的技术报告Videogenerationmodelsasworldsimulators来看下Sora具备哪些能力，以及这些能力是怎么来的。功能上除了文生图，还支持以图片、视频作为prompt，极大拓展使用场景。技术上，利用spacetimepatches，统一了时空分割语言，为后续模型训练以及使用场景的拓展打下基础。数据侧在准备高质量的caption数据做了专门的优化。另外模型基础架构采用DiffusionTransformer，通过Scalling，显著提...

2024-12-12 11:37:49 1501浏览 0点赞 0回复 0收藏

Kaggle大模型竞赛优胜方案总结与思考

大家好，我是HxShine。LLM的Reward模型该如何训练呢？今天对KaggleLLM比赛LLMScienceExam的一些优胜方法做一个总结，这是Kaggle竞赛平台第一次举办LLM相关比赛，赛题就是探索如何训练一个sciencebasedRewardModel。优胜方案中，如何利用RAG（检索增强）方法提高模型的上限，如何通过传统方法以及向量检索方法提高检索知识的质量，如何使用LoRA，QLoRA等技术对LLaMa2等系列进行微调，甚至在16GB内存的GPU上对70B大小的LLM进行推...

2024-12-04 12:47:42 2126浏览 0点赞 0回复 0收藏

ACL2024 |解释引导的大语言模型主动蒸馏：一种优化知识转移的创新框架 "ELAD"

大家好，我是HxShine今天分享一篇ACL2024关于LLM蒸馏的文章，来自EmoryUniversity，题为“ExplanationGuidedLargeLanguageModelsActiveDistillation”（解释引导的大型语言模型主动蒸馏）。在大型语言模型（LLMs）的应用中，由于其内存效率低、计算需求高以及API推理成本高，限制了其广泛部署。现有的知识蒸馏方法虽然能将LLMs的能力转移到较小模型上，但无法确保知识充分转移，可能导致高成本或蒸馏不完全。本文提出了一个简单...

2024-11-27 14:44:09 1802浏览 0点赞 0回复 0收藏

使用MCTS显著提升LLM在复杂任务的推理能力

精华

一、概述•Title:ReasoningwithLanguageModelisPlanningwithWorldModel•URL:https:arxiv.orgabs2305.14992•Code：https:github.commaitrixorgllmreasoners•Demo:https:github.commaitrixorgllmreasonersblobmaindemo.ipynb1Motivation•尽管COT表现不错，但是当前LLM在生成plan、复杂数学推理、逻辑推理时仍然表现不够好。•LLMs缺乏内部“世界模型”来预测世界状态（例如环境状态、中间变量值）并...

2024-11-20 14:41:27 4718浏览 0点赞 0回复 0收藏

Gemini技术报告解读：从Google多模态大模型看后续大模型应该具备哪些能力

大家好，我是HxShine。前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如何呢？本文对Gemini报告进行分析，总的来说Gemini模型在图像、音频、视频和文本理解方面表现出卓越的能力。其包括Ultra、Pro和Nano尺寸，能够适用于从复杂推理任务到设备内存受限用例的各种应用。不像OpenAI接入多模态能力需要利用多个不同的模型，Google直接在预训练阶段直接接受多模态的输入是Gemini的特点之一，...

2024-11-13 16:20:15 3025浏览 0点赞 0回复 0收藏

1、大模型也要"私人定制"？最新综述带你解锁AI的个性化服务人工智能正在飞速发展，ChatGPT等大语言模型已经成为我们生活中的"万能助手"。但你是否想过，如果AI助手能够真正理解你的个性特征，为你提供量身定制的服务，会是什么样的体验？最新发表的一篇综述论文，首次系统地梳理了大语言模型个性化这一前沿研究领域。就像每个人都有独特的性格和偏好一样，AI助手也需要"因材施教"。研究人员提出了三个层次的个性化方案：最精准...

2024-11-07 15:02:20 2545浏览 0点赞 0回复 0收藏

StaR ｜用少量推理数据让模型学会通用推理能力，显著提升模型复杂推理

今天分享GoogleResearch的一篇文章，可能OpenAIo1也采用了类似的技术，标题是STaR:BootstrappingReasoningWithReasoning。这篇文章提出了一种利用语言模型自我生成推理的技术，称为“SelfTaughtReasoner(STaR)”。该技术通过迭代地利用少量的推理样本和大量没有推理的数据，逐步提升语言模型处理复杂推理任务的能力。STaR能够显著提高模型在多个数据集上的性能，性能能与大30倍模型的微调性能相当。本文提出的方法一方面证明生...

2024-11-07 13:44:54 2034浏览 0点赞 0回复 0收藏

Microsoft ｜利用LLM本身训练SoTA embedding模型

大家好，我是HxShine今天分享一篇Microsoft公司的一篇文章，Title:ImprovingTextEmbeddingswithLargeLanguageModels：使用大型语言模型改善文本嵌入。这篇文章探索了直接利用LLM来做embedding模型，其只需要利用合成数据和少于1000次的训练步骤就能获得高质量文本表征。该方法分为两步：1）利用LLM生成文本embedding任务合成数据集：利用专有的大型语言模型（LLM）生成近100种语言的数十万个文本嵌入任务的多样化合成数据。2）...

2024-11-01 15:19:19 1564浏览 0点赞 0回复 0收藏

大模型微调哪家好？小孩子才做选择，成年人当然是全都要

一、概述title：UNIPELT:AUnifiedFrameworkforParameterEfficientLanguageModelTuning论文地址：https:arxiv.orgabs2110.07577代码：https:github.commorningmoniUniPELT1.1Motivation大模型不同的微调方法（PELT）例如LoRA，prefixtuning，Adapter方法效果不同，在不同的任务上效果也有差异，到底选哪个方法好呢？parameterefficientlanguagemodeltuning(PELT)方法能在参数量比finetuning小很多的情况下，perform追上finetunin...

2024-09-26 15:25:57 1877浏览 0点赞 0回复 0收藏

获得成就

已积累 1.6w 人气

获得 0 个点赞

获得 1 次收藏