鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

Nature：最大扩散强化学习

发布于 2024-5-7 11:26

浏览

0收藏

强化学习（RL）智能体（Agent）常常很难在现实世界中广泛部署：初始化差异影响大，样本效率低下，情境之外难以泛化。

研究发现问题的关键是违反了数据独立同分布 (iid) 的假设，而 iid 是大多数机器学习的基础。

强化学习（特别是具身）智能体的经验不可避免是连续的，且跨时间点相关，这也是笔者强调的RL的非马尔可夫性。

昨日，Nature机器智能，发文“最大扩散强化学习（MaxDiff RL）”解决了此问题。

Nature：最大扩散强化学习-AI.x社区

图1：时间相关性破坏了强化学习的SOTA技术，对于大多数系统，可控属性决定了状态转换之间的时间相关性。

强化学习领域的大多数方法都假设随机行为会产生有效的探索，最大熵强化学习（MaxEnt RL）这样的高级技术，也隐含这一假设。

不同于从固定的均匀分布或高斯分布中采样，最大熵强化学习最大化学习到的路径分布（即策略）的熵，以期确保足够的随机性来改善探索。

而实际是否可行，取决于智能体的可控属性，与其引发的时间相关性。状态转换之间的时间相关性可能会阻碍有效探索，严重影响深度强化学习智能体的性能。

Nature：最大扩散强化学习-AI.x社区

图2：最大扩散RL缓解了时间相关性以实现有效的探索。a、b，具有不同平面可控属性的系统。c，行动随机化是否导致有效的状态探索取决于基础状态转移动力学的属性。

论文从最大熵原理的统计力学中汲取灵感，该原理是最大口径变分优化，在连续性或时间关联约束下，优化目标是找到轨迹分布Pmax[x(t)]，优化一个熵函数S[P[x(t)]]。

幸运的是，这个受限变分优化问题对于最大熵路径分布具有解析解，其中Z是一个归一化常数：

Nature：最大扩散强化学习-AI.x社区

满足遍历性对最终智能体的性质具有深远的影响。遍历性是动力系统的一个正式属性，保证了单个轨迹的统计量在渐近情况下等同于大量轨迹的统计量。

尽管强化学习智能体时间相关性使得iid采样不可行，遍历性强化学习智能体的全局统计量与iid采样的统计量却无法区分。

Nature：最大扩散强化学习-AI.x社区

图3：最大扩散RL智能体对随机种子和初始化具有鲁棒性。

最大扩散强化学习核心是找到一个能够满足最大扩散路径统计的策略（policy）,一个policy 意味着一个轨迹分布。

找到满足最大扩散的轨迹分布的policy，是一个优化问题：最小化“agent现在的轨迹分布与最大扩散轨迹分布“之间的KL距离。

此KL距离可被写成等效的随机最优控制问题，目标是找到一种policy，最大化“智能体在环境中累计奖励的数学期望”。α>0是超参，用于平衡扩散探索和奖励。

Nature：最大扩散强化学习-AI.x社区

Nature：最大扩散强化学习-AI.x社区

智能体路径熵的局部估计则可以从观察中学习到：

Nature：最大扩散强化学习-AI.x社区

Nature：最大扩散强化学习-AI.x社区

图4：训练系统的具身性确定了部署系统的性能。

MaxDiffRL 同时考虑策略和智能体-环境动力学的时间相关性的一般形式，若不考虑时间相关性，就褪化成MaxEntropy，即MaxEnt是MaxDiff的特例。

Nature：最大扩散强化学习-AI.x社区

图5：最大扩散RL智能体能够进行单次学习。

验证表明，MaxDiffRL方法针对初始化具有鲁棒性，实现了高效单样本学习，情境之外也易于泛化。

流行的基准测试中，MaxDiffRL也稳健地超越了SOTA。为强化学习智能体（如运动机器人和自动驾驶汽车）的更透明更可靠的决策奠定了基础。

SORA 学习到物理原理，看起来也可以以某种方式借鉴MaxDiffRL 类似的方法，以更好的处理时空碎片状态空间时间相关性，更好把控其动态性。

本文转载自清熙，作者：王庆法

标签

赞

收藏

回复

举报

回复

相关推荐

扩散模型如何帮助创建更好的强化学习系统

51CTO内容精选 • 2977浏览 • 0回复
ICML 2024：从视觉语言基础模型反馈中进行强化学习

AIGC最前线 • 4252浏览 • 0回复
Transformers学习上下文强化学习的时间差分方法

AIGC最前线 • 2766浏览 • 0回复
机器学习有哪些类型？监督学习、无监督学习、强化学习、深度学习等等！

parson2000 • 4071浏览 • 0回复
机器学习有哪些类型？监督学习、无监督学习、强化学习、深度学习等等

parson2000 • 4766浏览 • 0回复
训练模拟人形机器人的五种强化学习技术大PK

51CTO内容精选 • 4003浏览 • 0回复
自然（Nature）机器智能子刊：多智能体系统中的高效决策与去中心化强化学习的应用

xuxiangda • 5547浏览 • 0回复
从具身智能再谈强化学习，为什么需要强化学习，以及强化学习的应用场景

AI探索时代 • 3333浏览 • 0回复
为啥强化学习开始成为了大语言模型（LLM）的新宠？

智驻未来 • 2995浏览 • 0回复
基于多模态深度强化学习的投资组合优化

灵度智能 • 3321浏览 • 0回复
基于深度强化学习的投资组合配置动态优化

灵度智能 • 3997浏览 • 0回复
从“Nature局部核重整化学习机制”说开去

ceesoft • 1934浏览 • 0回复
一文搞懂 DeepSeek - 强化学习和蒸馏

玄姐聊AGI • 3345浏览 • 0回复
强化学习与软件工程：开源软件奖励演化的强化学习

AI研究前瞻 • 2214浏览 • 0回复
白话DeepSeek R1的GRPO强化学习算法：原理、图解、视频

后向传播 • 4066浏览 • 0回复
Logic-RL：基于规则强化学习的推理释放

顿数AI • 2357浏览 • 0回复
Search-R1：强化学习增强大语言模型推理+搜索能力

十一月雨_55 • 2564浏览 • 0回复
强化学习强在哪里？基础探索

柏企阅文 • 1614浏览 • 0回复
ReSearch: 突破性强化学习框架实现大模型推理搜索能力无缝整合

顿数AI • 6044浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

Nature: 精度不受热力学第二定律限制 2025-06-25 06:42:50发布
Nvidia的具身推理模型还缺什么？ 2025-05-29 07:20:59发布

热门推荐

从原理到调参，小白也能读懂的大模型微调LoRA，不懂线性代数也没问题 0回复

本命周！MiniMax M1有多猛？网友：仅用40k思考预算就干翻Gemini，实测：真·超DS！ 1回复

AI Agents开源工具栈全解析~ 0回复

我把DeepSeek微调参数扒光了，显存和性能优化的秘密都在这 0回复

效果&成本双突破！快手提出端到端生成式推荐系统OneRec！ 0回复

下一篇： LLM CoT的工作原理

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载