sbf_2000
LV.1
这个用户很懒,还没有个人简介
声望 87
关注 0
粉丝 0
私信
主帖 12
回帖
一、结论写在前面论文来自GoogleDeepMind。论文标题:NATURALPLAN:BenchmarkingLLMsonNaturalLanguagePlanning论文链接:​​https:arxiv.orgpdf2406.04520​​论文提出了NATURALPLAN,一个包含三个关键任务(旅行规划、会议规划和日历调度)的自然语言现实规划基准。论文的评估重点在于LLMs在完全了解任务情况下的规划能力,通过提供来自GoogleFlights、GoogleMaps和GoogleCalendar等工具的输出作为模型的上下文。这消除了在规...
4天前 109浏览 0点赞 0回复 0收藏
一、结论写在前面论文标题:ASoftwareEngineeringPerspectiveonTestingLargeLanguageModels:Research,Practice,ToolsandBenchmarks论文链接:​​https:arxiv.orgpdf2406.08216​​LLMs正迅速成为无处不在的工具,既是独立工具,也是当前和未来软件系统的组件。为了在2030年的高风险或安全关键系统中使用LLMs,它们需要经过严格的测试。软件工程(SE)对机器学习(ML)组件和基于ML的系统测试的研究已经系统地探讨了许多主题,...
6天前 190浏览 0点赞 0回复 0收藏
一、结论写在前面论文来自阿里巴巴。论文标题:BoostingLargescaleParallelTrainingEfficiencywithC4:ACommunicationDrivenApproach论文链接:​​https:arxiv.orgpdf2406.04594​​LLMs的出现促使了并行训练技术的采用,涉及部署数千个GPU来训练单一模型。不幸的是,论文发现当前的并行训练效率往往不理想,主要原因有两点。首先,硬件故障不可避免,导致训练任务中断。无法快速识别故障组件导致大量GPU资源的浪费。其次,由于...
8天前 217浏览 0点赞 0回复 0收藏
一、结论写在前面论文来自MetaRealityLabs、FAR、Meta、HKUST、HKUST(GZ)论文标题:CRAGComprehensiveRAGBenchmark论文链接:​​https:arxiv.orgpdf2406.04744​​​检索增强生成(RetrievalAugmentedGeneration,RAG)最近作为一种有前景的解决方案出现,以缓解大型语言模型(LLM)在知识缺乏方面的不足。然而,现有的RAG数据集并未充分代表真实世界问答(QA)任务的多样性和动态性。为了弥合这一差距,论文引入了综合性RAG基...
8天前 346浏览 0点赞 0回复 0收藏
一、结论写在前面论文来自复旦自然语言处理实验室&复旦视觉与学习实验室论文首次尝试构建具有自我演化能力的通用LLM基础agent。论文确定了三个关键要素:1)多样化的环境供agent探索学习;2)一套轨迹集赋予agent基本能力和先验知识;3)一种有效且可扩展的演化方法。论文提出了AGENTGYM框架,一个包含多样化环境、任务和目标的交互平台,专为LLM基础agent设计。AGENTGYM通过HTTP服务提供便捷的API,标准化任务规范、环境设置以...
2024-06-13 12:17:56 255浏览 0点赞 0回复 0收藏
一、结论写在前面论文来自Microsoft。微调大语言模型是用户尝试将其适应特定应用的流行选择。然而,微调这些模型是一项艰巨的任务,因为用户必须考虑多种因素,如资源预算、运行时间、模型大小和上下文长度等。一个具体挑战是微调过程对内存的需求很大,这限制了所需的硬件内存和能够处理的训练数据上下文长度。论文分享了针对不同微调场景的各种微调优化的详细研究。特别是,论文评估了梯度检查点(GradientCheckpointing)、...
2024-06-13 12:05:13 239浏览 0点赞 0回复 0收藏
一、结论写在前面在强化学习人类反馈(RLHF)中,有效对齐大型语言模型(LLMs)与以人为中心的价值,同时防止通过预训练和监督微调(SFT)获得的能力退化,是一个核心挑战。插值RLIF和SFT模型参数可以调整人类偏好与基本能力之间的权衡,从而以牺牲对齐奖励为代价减少对齐开销(AlignmentTax)。受此启发,论文提出在RLHF的每个优化步骤中整合RL策略和SFT模型,以持续调节训练方向,引入在线合并优化器。具体而言,论文通过合并SF...
2024-06-07 12:59:44 227浏览 0点赞 0回复 0收藏
一、结论写在前面传统的推荐系统通过学习和强化过去的用户物品交互形成强烈的反馈循环,这反过来限制了新用户兴趣的发现。为了解决这一问题,论文引入了一种结合大型语言模型(LLMs)和经典推荐模型的混合层次框架,用于用户兴趣探索。该框架通过“兴趣集群”控制LLMs和经典推荐模型之间的接口,集群的粒度可以由算法设计者明确确定。该方法结合了LLMs在推理和泛化方面的优势,以及经典推荐模型的基础。它首先使用语言表示“兴...
2024-06-05 09:42:35 298浏览 0点赞 0回复 0收藏
一、结论写在前面同理心是促进亲社会行为的基础,可以通过分享个人经历的故事来唤起。虽然同理心受到叙事内容的影响,但直觉上,人们也通过叙事风格对故事的讲述方式做出反应。然而,同理心与叙事风格之间的关系尚未完全明了。论文通过大型语言模型(LLMs)和大规模众包研究实证检验并量化了这种关系。论文引入了一种新颖的理论基础分类法,HEART(人类同理心与叙事分类法),该分类法阐述了叙事风格中的元素,这些元素能够引导...
2024-06-04 09:09:54 398浏览 0点赞 0回复 0收藏
一、结论写在前面最近的一些方法已经显示出将昂贵的扩散模型蒸馏到高效的单步生成器中的前景。其中,分布匹配蒸馏(DMD)能够生成与教师模型在分布上匹配的单步生成器,即蒸馏过程不强制与教师模型的采样轨迹一一对应。然而,为了在实践中确保稳定训练,DMD需要使用教师模型通过多步确定性采样器生成的大量噪声图像对计算一个额外的回归损失。这不仅在大规模文本到图像合成中计算代价高昂,而且还限制了学生模型的质量,使其过于...
2024-05-30 10:41:48 269浏览 0点赞 0回复 0收藏
一、结论写在前面直接偏好优化(DPO)是一种广泛使用的离线偏好优化算法,它通过人类反馈(RLHIP)重新参数化强化学习中的奖励函数,以增强简单性和训练稳定性。论文提出了SimPO,一种更简单但更有效的方法。SimPO的有效性归功于一个关键设计:使用序列的平均对数概率作为隐式奖励。这种奖励形式更好地与模型生成对齐,并消除了对参考模型的需求,使其在计算和内存上更高效。此外,论文在BradleyTerry目标中引入了一个目标奖励...
2024-05-28 10:52:40 933浏览 0点赞 0回复 0收藏
一、结论写在前面近期,多模态大型语言模型(LLMs)的发展主要集中在通过增加文本图像配对数据和增强LLMs来提高多模态任务的性能。然而,这些扩展方法计算成本高昂,且忽视了从视觉方面有效提升模型能力的重要性。受到混合专家(MoE)在LLMs中成功应用的启发,该技术在训练过程中提高了模型的可扩展性,同时保持推理成本与小型模型相似,论文将稀疏混合专家设计引入了多模态大型语言模型。具体而言,论文用TopK稀疏MoE块替换了M...
2024-05-23 17:52:09 291浏览 0点赞 0回复 0收藏
获得成就
已积累 976 人气
获得 0 个点赞
获得 0 次收藏