在AI发展进程中有一个非常有趣却有违常识的现象——
「一些对人类而言相对困难的任务,例如下棋,对AI来说却相对容易实现。而在开放世界中与环境交互、进行规划和决策等对人类来说较简单的事,AI却面临巨大挑战」
而这,就是莫拉维克悖论。
不过,现在GITM成功打破了这一悖论限制,在复杂且类似于现实世界的环境中取得突破,能够像人类一样生存,探索和创造了!
在紧密模拟真实世界的畅销游戏《我的世界》(Minecraft)中,由商汤科技联合清华大学、上海人工智能实验室等机构研究者们共同提出的通才AI智能体 Ghost in the Minecraft(GITM),不但能够玩转《我的世界》,且比以往所有智能体都有更加优秀表现。
项目主页:https://github.com/OpenGVLab/GITM
像人类一样生存,探索和创造
此研究在向通用人工智能(AGI)方向迈出了重要一步。
广泛的任务覆盖
GITM在《我的世界》内主世界的所有技术挑战上实现了100%的任务覆盖率(成功解锁了完整的科技树的262个物品),而此前所有智能体的总和只能覆盖30%。(以往所有智能体方法包括OpenAI和DeepMind在内总共只解锁了78个)
高任务成功率
在最受关注的「获取钻石」任务上,GITM取得了67.5%的成功率,相比于目前最佳成绩(OpenAI VPT)提高了47.5%。
极高的训练效率
GITM的训练效率也达到新高度。环境交互步数只需已有方法的万分之一,单一CPU节点训练2天即可完成,远远低于之前OpenAI VPT所需的6480个GPU天或DeepMind DreamerV3所需的17个GPU天。
通才AI智能体「Ghost in the Minecraft」(GITM)玩转《我的世界》游戏,生存模式白手起家,拿到主世界的所有物品,挖钻石不在话下,还能制作附魔书!
GITM面对各类地形、环境、白天黑夜场景,甚至遇到怪物也能自如应对
GITM还可以进一步应用在《我的世界》更加复杂的任务中,比如生存所需的避难所、农田、铁傀儡,创造自动化设备所需的红石电路、进入下界所需的下界传送门等。
这些任务展示了GITM强大的能力和可扩展性,使得智能体能够在《我的世界》中长时间生存、发展,探索更加高级的世界。
通用人工智能突破加速AI产业化革命
研发攻克《我的世界》中所有技术挑战的AI智能体GITM,目的是构建一个具备自主学习和掌握整个真实世界技能的通用人工智能方向。
GITM打破了传统以RL为基础的架构,采用大型语言模型(LLM)作为智能体核心的新范式。
这一创新也有助于推动通用人工智能(AGI)的研究目标加速实现,发展出能够在开放世界环境中像人一样进行感知、理解和交互的智能体,并为机器人和自动驾驶等产业带来巨大突破和进步,有效解决现实世界中复杂环境和各类长尾问题,推动AI技术更大规模的产业落地。
「Ghost in the Minecraft」(GITM)
得益于「大模型+大算力」推进AGI(通用人工智能)发展的战略布局,以及全栈大模型研发体系,商汤科技得以在多模态、多任务通用大模型领域快速发展,以「日日新SenseNova」大模型体系为核心,不断助力创新技术快速应用于智能汽车、智慧生活、智慧商业和智慧城市等领域,持续提升产业智能化。
今天,GITM的成功将推动自动驾驶等应用处理复杂任务的能力更上一层楼,打破更高的技术天花板。