AI教母李飞飞的创业公司World Labs,正式官宣启动!
3个月前,这家新晋AI独角兽,在完成约1亿美元融资后,估值10亿美金。
刚刚,World Labs又获2.3亿美金新一轮融资。
这一次,新一轮融资由a16z、NEA和Radical Ventures领投,还有英伟达的风投部门参与。
甚至,就连AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt、LinkedIn联创Reid Hoffman等人纷纷参投。
李飞飞和Hinton同时分别担任Radical Ventures的科学合伙人和投资人
他们瞄准的是,空间智能AI。
一直以来,World Labs成立所专攻的领域,被蒙上了一层神秘的面纱。如今,一切真相大白。
官博介绍,World Labs的诞生就是为了构建「大世界模型」(LWM),感知、生成3D世界,并与之进行交互。
World Labs拒绝透露这一轮融资后的最新估值。
过去两年里,文本提示图像、视频模型,以及LLM的兴起,预示着AI在视觉领域的潜力。
但它们仅是冰山一角。
在李飞飞看来,我们需要的空间智能的AI,能够对世界进行建模,同时根据3D时空中物体/地点/交互进行推理。
World Labs创始人团队,左起依次为Ben Mildenhall、Justin Johnson、Christoph Lassner和李飞飞
那么,究竟什么是空间智能?
空间智能,计算机视觉下一个前沿
前段时间,李飞飞在一次活动中,首次详细揭秘了何谓「空间智能」:
视觉化为洞察,看见成为理解,理解导致行动。
她将人类智能归结为两大智能,一是语言智能,另一个便是空间智能。虽然语言智能备受关注,但空间智能将对AI产生重大的影响。
而在4月公开的TED演讲中,李飞飞也分享了自己关于空间智能的更多思考,同时预示着World Labs的目标所在。
她表示,「所有空间智能的生物所具备的行动能力,是与生俱来的。因为,它能够将感知与行动进行关联」。
「如果想让AI超越其自身当前的能力,我们需要的是,不仅仅能够看到、会说话的AI,而是一个可以行动的AI」。
就连英伟达高级计算机科学家Jim Fan称,「空间智能,是计算机视觉和实体智能体的下一个前沿」。
正如World Labs的官博所阐述的那样,人类智能包含了诸多方面。
语言智能,可以让我们通过语言与他们进行交流和联系。而其中最为基础的便是——空间智能,能够让我们理解,并与周围世界进行互动。
此外,空间智能具备了极强的创造力,可以将我们脑海中的画面,在现实中呈现。
正是有了空间智能,人类能够推理、行动和发明。从简单的沙堡到高耸的城市可视化设计,都离不开它。
在接受彭博最新采访中,李飞飞表示,人类的空间智能,实际上经过了数百万年的演化而来。
这是一种理解、推理、生成,甚至在一个3D世界中互动的能力。不论是你观赏美丽的花朵,尝试触摸蝴蝶,还是建造一座城市,所有这些皆是空间智能的一部分。
不仅是人类,动物身上也可以看到这一点。
那么,如何让计算机也能具备空间智能的能力呢?其实我们已经取得了巨大的进步,过去十年AI领域的发展相当振奋人心。
一句提示,AI生成图像、视频,真知还能讲述故事。这些模型已经以全新的方式,重塑人类的工作和生活方式。
而我们仅是看到了GenAI革命前夜的第一章。
下一步,如何超越?
需要将这些能力,如何带到3D领域。因为现实世界,就是3D的,同时人类空间智能是建立在非常「原生」的理解和操作3D的能力之上的。
打造「大世界模型」,从2D走向3D
以上,是李飞飞多年来的思考和预判。而World Labs这家公司,可以说是很好地凝结了这些远见卓识。
他们的目标,简而言之,就是构建具有空间智能的大世界模型(LWM),让它可以感知、理解、推理,甚至生成3D世界,并能与其互动。
此外,从公司发布的公告来看,World Labs绝不会止步于研究层面的探索。
公司目前有20名成员,不仅包括CV和图形学领域的研究人才,还有系统工程、产品设计等职位,致力于在空间智能的基础模型和产品之间构建反馈闭环,从而让产品落地、服务用户。
随着时间的推移,预计将训练出功能更强大、能力更广泛的模型,可以应用于各种领域,与人们协同工作。
李飞飞在最新采访中,也提出了类似的预期:「这是一项非常基础的技术,将对广泛的用例产生影响,最终包括机器人和制造业。」
比如,如果用户可以自定义物理变量来创建虚拟的3D空间,将会为艺术家、设计师、开发者和工程师解锁新的能力。
最终,GenAI将从2D的像素平面,走向完整的3D世界,无论是虚拟的还是现实的。
这些听起来似乎有些难以想象,但之World Labs之所以吸引到这么多大佬投资,其中一个重要原因就是李飞飞对技术的发展方向有准确的预判。
早在2006年,专注于搞神经网络的Hinton还在坐冷板凳,机器学习和深度学习的热潮远远没有到来。
当时,李飞飞就带领团队创建了ImageNet数据集,包含1500万张图像,以及相应的基准测试ImageNet Challenge。
正是在ImageNet挑战赛上,Hinton、Ilya Sutskever等人设计的AlexNet脱颖而出,让2012年成为了「深度学习元年」。
李飞飞的远见,可见一斑,也让我们期待她能将「空间智能」变为现实。
AI大牛转赞庆祝
对于World Labs正式成立的消息,李飞飞高徒Karpathy表示非常期待,也特地发推庆祝。
「The World Labs团队是顶尖的,我很期待看到他们将前沿研究应用到3D AI中!」
Karpathy表示,在博士期间,他透与李飞飞和Justin Johnson共同度过了很多时光,充满了美好的回忆。
当时,李飞飞是他的导师,也是他们「勇敢的领袖」;Justin和他一起撰写论文,这三位大佬共同奠基了斯坦福最著名的课程之一——CS231n的第一个版本。
CS231n课程全名为计算机视觉深度学习(Deep Learning for Computer Vision),李飞飞在今年的春季学期依旧开设了这门课,和吴恩达的CS229一样,是很多AI从业者的启蒙课。
而在2017年首次开设的时候,Andrj Karpathy、Justin Johnson和李飞飞共同担任讲师,YouTube上依旧能找到他们当时上课的录像视频。
此外,英伟达高级科学家Jim Fan也同样发推,祝贺自己的博士导师李飞飞成功创业。
2016~2021年Jim Fan在斯坦福大学读博期间,就是在李飞飞的指导下开展深度强化学习、机器人学、CV等领域的研究。
他在推文中表示,李飞飞在具身智能方面的观点深刻影响了自己的博士阶段和研究品味。他相信,空间智能将是CV和具身智能体的下一个前沿。
作为Justin Johnson和Chao-Yuan Wu之前在Meta FAIR的前同事,纽约大学助理教授谢赛宁也发推祝贺,并表示「空间智能必胜!」
四人创始团队
除了李飞飞,创始团队中的其他3人也都是CV和图形学领域的技术专家。
Ben Mildenhall
Ben Mildenhall本科毕业于斯坦福大学的数学和计算机科学专业,博士毕业于加州大学伯克利分校,曾在谷歌担任研究科学家,谷歌学术引用量超过2.3万。
他博士期间师从Ren Ng,提出了著名的NeRF(神经辐射场)。
论文地址:https://arxiv.org/pdf/2003.08934
Justin Johnson
Justin Johnson在创业的同时还在担任密歇根大学助理教授,他从加州理工学院获得了数学和计算机科学的学士学位,博士毕业于斯坦福大学,是李飞飞的学生。
他博士期间曾在谷歌、Facebook、雅虎实习,毕业后到Meta FAIR担任研究科学家,谷歌学术引用量超过3.4万。
读博期间发表的这篇论文《Perceptual Losses for Real-Time Style Transfer and Super-Resolution》,单篇的引用量就超过了1.1万。
论文地址:https://arxiv.org/pdf/1603.08155
Christoph Lassner
Christoph Lassner本科毕业于德国奥格斯堡大学的信息学专业,之后前往图宾根大学以及Max Planck智能系统研究所攻读博士。
毕业后,他曾在Meta和亚马逊担任研究科学家,之后在Epic Games领导研究团队,专注于图形学领域的3D重建和3D渲染技术。