李飞飞：World Labs这样实现「空间智能」-51CTO.COM

说到斯坦福大学教授李飞飞（Fei-Fei Li），她提倡的「空间智能」最近正在引领 AI 发展方向。

李飞飞已经在人工智能历史上赢得了一席之地，她多年来一直致力于创建 ImageNet 数据集和竞赛，在深度学习革命中发挥了重要作用。

2012 年，一个名为 AlexNet 的神经网络引爆了 AI 研究界，它的表现远远超过所有其他类型的模型，并赢得了当年的 ImageNet 竞赛。自那时起，神经网络开始腾飞，其动力来自互联网上可用的大量免费训练数据和提供空前计算能力的 GPU。

自 ImageNet 以来的 13 年里，计算机视觉研究者们掌握了物体识别，并转向图像和视频生成。李飞飞与他人共同创办了斯坦福大学以人为本人工智能研究所 (HAI)，并继续突破计算机视觉的界限。

就在今年，她创办了一家初创公司 World Labs，旨在生成用户可以探索的 3D 场景。World Labs 致力于为人工智能提供「空间智能」，即生成、推理和与三维世界互动的能力。

李飞飞昨天在人工智能顶会 NeurIPS 上发表了主题演讲，讲述了她对机器视觉的愿景。她表示，非常荣幸第一次在 NeurIPS 上演讲，50 分钟讲 180 页 PPT 是个很有趣的经历。

在演讲之前，李飞飞接受了 IEEE Spectrum 的独家采访，让我们看看她对空间智能有哪些新的见解：

Eliza Strickland：你为什么把你的演讲命名为「提升视觉智能的阶梯（Ascending the Ladder of Visual Intelligence）？」

李飞飞：智能具有不同层次的复杂性和精细度。在这次演讲中我想传达的是，在过去几十年，尤其是深度学习发生变革的十多年里，我们在视觉智能方面学会做的事情简直令人叹为观止。我们正在变得越来越擅长使用这项技术。同时，我也受到了 Judea Pearl 因果阶梯理论的启发，这一理论出自他 2020 年出版的书《The Book of Why》。

演讲还有一个副标题，即「从看到做到（From Seeing to Doing）」。这是人们没有足够重视的一点：从看到与交互和做事紧密相关，无论是对于动物还是对于 AI 智能体来说都是如此。这与语言背道而驰。语言从根本上来说是一种用来传达思想的交流工具。在我看来，它们是非常互补但同样深刻的智能模式。

Eliza Strickland：你的意思是我们对某些视觉刺激有本能的反应吗？

李飞飞：我不仅仅是在谈论本能。如果你观察感知的演变和动物智能的演变，你会发现它们是深深交织在一起的。每当我们能够从环境中获取更多信息时，进化的力量就会推动事物能力和智能向前发展。如果你不能感知环境，你与世界的关系就非常被动；无论你是捕食者还是被捕食者，都是一个非常被动的行为。

但是一旦你能够通过感知从环境中获取线索，进化的压迫感就会增加，这推动了智能的发展。

Eliza Strickland：你认为这就是我们创造越来越深层次的机器智能的方式吗？通过让机器更多地感知环境？

李飞飞：我不确定「深度」这个词是不是我该用的形容词。我认为我们正在创造更多的能力。我认为它将变得更加复杂，更有能力。解决空间智能问题确实是朝着全面智能（full-scale intelligence）迈出的一个基本且关键的步骤，这是绝对正确的。

Eliza Strickland：我看到过 World Labs 的演示。你为什么想研究空间智能并构建这些 3D 世界。

李飞飞：我认为空间智能是视觉智能的发展方向。如果我们真的想要解决视觉问题，并且将其与行动联系起来，有一个非常简单、显而易见的事实：世界是三维的。我们不是生活在一个平面世界中。我们的物理智能体，无论是机器人还是设备，都将生活在三维世界中。即使是虚拟世界也越来越变得三维化。

如果你和艺术家、游戏开发者、设计师、建筑师、医生交谈，即使他们在虚拟世界中工作，很多内容也是三维的。如果你花一点时间认识到这个简单但深刻的事实，毫无疑问，解决 3D 智能的问题是根本性的。

Eliza Strickland：我很好奇 World Labs 中的场景是如何保持物体永久性并遵守物理定律的。这感觉像是一个令人兴奋的进步，因为像 Sora 这样的视频生成工具仍然在处理这些事情。

李飞飞：一旦你遵循世界的 3D 特性，很多事情就会变得自然而然。例如，在我们发布的一段视频中，有一个关于篮球的视频。由于场景是 3D 的，篮球会根据重力或其他物理规则正确落地并与环境交互。如果场景只是由 2D 像素生成的，篮球不会有任何物理反应，无法表现出落地或运动的效果。

Eliza Strickland：就像 Sora，球可能会去某个地方，然后消失。在推动这项技术发展的过程中，你面临的最大技术挑战是什么？

李飞飞：没有人解决了这个问题，对吧？这非常非常困难。在一个 demo 中，我们取了一幅梵高的画作，并围绕它生成了整个场景，风格一致：艺术风格、光线，甚至是那个街区会有什么样的建筑。如果你转过身来看到的是摩天大楼，那将完全不可信，对吧？而且它必须是三维的。你必须能够进入其中。所以它不仅仅是像素。

Eliza Strickland：你能说说你用来训练它的数据吗？

李飞飞：非常多。

Eliza Strickland：在算力方面是否存在很多挑战？

李飞飞：这需要大量的算力。是公共部门无法承担的那种计算能力。这也是我需要通过休学术假，以私营部门的方式来做这件事的部分原因。同时，这也是我一直倡导公共部门获得计算资源访问权的部分原因，我自己的经历强调了在足够资源支持下进行创新的重要性。

Eliza Strickland：赋予公共部门权力是一件好事，因为公共部门通常更愿意通过获取知识，为人类谋福利。

李飞飞：知识发现需要资源支持，对吧？在伽利略时代，最好的望远镜是让天文学家观察新天体的望远镜。Hooke 意识到放大镜可以变成显微镜，并发现了细胞。

每当有新的技术工具出现时，它都会帮助人们寻求知识。现在，在人工智能时代，技术工具涉及计算和数据。对于公共部门，我们必须认识到这一点。

Eliza Strickland：你希望联邦政府提供哪些资源？

李飞飞：过去五年来，斯坦福大学 HAI 一直在做这项工作。我们一直在与国会、参议院、白宫、行业和其他大学合作，创建国家人工智能研究资源中心 (NAIRR)。

Eliza Strickland：假设我们能让人工智能系统真正理解 3D 世界，这会给我们带来什么？

李飞飞：它将为人们释放大量创造力和生产力。我希望以更高效的方式设计我的房子。我知道许多医疗用途都涉及理解一个非常特殊的 3D 世界，即人体。我们总是谈论未来人类将创造机器人来帮助我们，但机器人在 3D 世界中导航，它们需要空间智能作为大脑的一部分。

我们还谈论虚拟世界，它将允许人们参观很多地方、学习概念或娱乐。这些都要使用 3D 技术，尤其是混合现实技术，我们称之为 AR [增强现实]。我很想戴着一副眼镜穿过国家公园，它能让我了解树木、道路、云朵的信息。我也想借助空间智能学习不同的技能。

Eliza Strickland：会是什么样的技能？

李飞飞：我举个蹩脚的例子，如果我在高速公路上爆胎了，我该怎么办？现在，我打开一个「如何换轮胎」的视频。但如果我能戴上眼镜，看看我的车发生了什么，然后得到指导，那就太酷了。但这是一个蹩脚的例子。你可以考虑烹饪，你可以考虑雕刻 —— 有趣的事情。

Eliza Strickland：你认为（这个方向）在我们这一代能走多远？

李飞飞：我认为这会是我们有生之年的事，因为技术进步的速度非常快。你已经看到了过去 10 年带来的变化。这肯定预示着接下来会发生什么。