英伟达神秘视频基础模型「Cosmos」曝光，数据全靠偷-51CTO.COM

今天，一则关于英伟达要下场做视频模型的消息引爆了 Reddit。

消息源出自外媒 404 Media，据它获得的 Slack 聊天（英伟达的内部聊天平台）、电子邮件和文件显示，英伟达正在从 Youtube 和其他几个来源抓取视频，收集用于其 AI 产品的训练数据。

404 Media 查看的英伟达内部对话显示，当参与该项目的员工提出有关使用「禁止商用的研究数据集」和「YouTube 视频」可能产生法律问题时，管理人员告诉他们，他们已获得公司最高层的批准，可以使用这些内容。

一位匿名的前英伟达员工对此表示，员工被要求从 Netflix、YouTube 和其他来源抓取视频，以训练的 Omniverse 3D 世界生成器、自动驾驶汽车系统和「数字人」产品的 AI 模型。

该项目内部命名为 Cosmos（但与公司现有的 Cosmos 深度学习产品不同），尚未向公众发布。该项目领导层发给员工的电子邮件显示，Cosmos 的目标是构建一个最先进的视频基础模型，「将光传输、物理和智能模拟封装在一个地方，以解锁对英伟达至关重要的各种下游应用。」

为了收集训练视频，英伟达员工使用名为「 yt-dlp」的开源 YouTube 视频下载器。他们试图从 Netflix 等各种来源下载完整视频，但主要集中在 YouTube 视频。404 Media 查看的电子邮件显示，项目经理选择了使用 Amazon Web Services 中的 20 到 30 台虚拟机，每天下载相当于 80 年的视频。

英伟达研究副总裁兼 Cosmos 项目负责人 Ming-Yu Liu 在 5 月份的一封电子邮件中表示：「我们正在完成 v1 数据 pipeline 并确保必要的计算资源，以构建一个视频数据工厂，该工厂每天可以产生相当于人类一生视觉体验的训练数据。」

当被问及英伟达使用 YouTube 视频作为其模型的训练数据时，谷歌发言人告诉 404 Media 称，该公司「此前的立场仍然有效」。此前 YouTube 首席执行官 Neal Mohan 表示，如果 OpenAI 使用 YouTube 视频来改进其 AI 视频生成器 Sora，那将「明显违反」YouTube 使用条款。

同样地，Netflix 发言人告诉 404 Media，公司与英伟达并未就内容采集达成协议，而且该平台的服务条款不允许抓取内容。

不过，英伟达方面似乎并不在意。参与该项目的员工提出的法律问题经常被项目经理驳回并表示，未经许可抓取视频的决定是「行政决定」，他们不需要担心，而什么是公平、合乎道德地使用受版权保护的内容以及学术、非商业用途数据集的问题被认为是「悬而未决的法律问题」，他们将来会解决。

英伟达视频模型项目始末

和其他科技巨头类似，英伟达聘用学术研究人才发表学术成果，但从 404 Media 获取的内部邮件可以看出，Cosmos 显然将用于商业用途。

今年三月，一位英伟达的研究员在 Slack 上发帖，提议用《阿凡达》或《指环王》这样的好莱坞电影来训练 OpenAI Sora，可能效果会更好。

随后，他的提议得到了公司内的认可，但他也补充道，好莱坞对 AI 可能侵占版权的事格外敏感。2023 年七月，拥有 16 万会员的好莱坞三大工会之一 SAG-AFTRA 宣布罢工，矛头直指 ChatGPT 和 Stable Diffusion 等生成式 AI 产品，在此之前，美国编剧工会已经罢工 70 多天。Stable Diffusion 存在这样的情况，即使不输入对应的提示词，输入「动漫画风的水管工」这样的模糊描述，Stable Diffusion 会直接生成马里奥的经典形象。

在这个帖子下，一位名叫「Liu」的员工（即英伟达研究副总裁Ming-Yu Liu（刘洺堉）回复道：「如果不公开发表论文，就不会引来以上负面问题。我们应该先用能下载的视频进行实验。」

之后，有另外一位英伟达研究员又在内网发了一个帖子，他找到了一份训练视频模型应该优先下载的文件列表，但是英伟达所使用 HD-VILA-100M 数据集中却缺少约 230 万个原始视频。这个不断扩张的列表中还包含一些知名 YouTuber 的原创视频，比如在北美和知名度类似「大家好我是何同学」的数码评测博主 Marques Brownlee（MKBHD）。

出于对版权的保护，一般的视频数据集往往收录 URL 链接或者 YouTube ID，一旦作者删除了原视频，这些内容将不会继续被包含在数据集中，除非视频作者明确同意其内容被保留和使用。

虽然微软在其 HD-VILA-100M 数据集的使用声明中明确禁止用于一切商业用途，但是发帖的英伟达员工似乎并不在意，他很快贴出了这份列表对应的 YouTube 链接，并和同事们讨论出了用 AWS 虚拟机换 IP，规避 YouTube 反爬虫机制的解决方案。

除此之外，英伟达的员工还将手伸向了 Google 发布的大规模视频理解数据集 YouTube-8M。和自行补全微软的数据集不同，他们和 YouTube 以及 YouTube 现在的母公司的谷歌达成了一笔「交易」，英伟达以每支视频 0.00625 美元（约等于人民币 4 分钱）的价格买下了 800 万支视频，并将通过谷歌云下载。不考虑出卖版权的问题，谷歌可能以为赚回了这些视频的广告费，但英伟达本来在云带宽方面就存在一些限制，在谷歌云上下载，反而通过能获得更加稳定和可预测的连接。因此，无论从哪个角度来看，这笔「交易」似乎都对英伟达有利。

更令人诧异的是，当有英伟达员工在内网提问：「我们这样下载 YouTube 视频合理吗？」

「这是一个高层决策。我们已经获得了使用所有数据的全面批准。」他得到了这样的回复。

这个决策所允许使用的数据还包含 Netflix 上的视频作品。Netflix 的数据包含很多高质量的人脸数据，在得到批准后，有人在公司内网 @了有在其他大公司「构建大型数据集」的经验的同事帮忙。

同时，Cosmos 团队还考虑了如何有效将游戏画面添加到训练数据中的问题。英伟达高级研究科学家 Jim Fan 在捕获实时游戏画面时也遇到了「监管」的障碍。

Jim Fan 发了个帖子说：

更新：我一直在与 GeForce Now（GFN）的人员开会，和他们制定计划。我们将与 GFN 及相关工程团队紧密合作，开发捕获实时游戏数据的方法，扩大 pipeline 的规模，并对数据加以处理用于训练。高质量的游戏视频将对「我们的 Sora」提供非常有用的补充...... 因为还没有用来捕获实时游戏视频和动作的设备，因此还没有进行统计，但我们将尽快将清理和处理过的 GFN 数据添加到 team-vfm。

今年三月份，Cosmo 项目的视频数据收集达到了一个里程碑：Nvidia 在两周内完成了 10 万次视频下载。

「进展惊人。现在的问题是我们如何才能获得大量高质量的 URL。」Liu 在这个帖子中回复道。

5 月下旬，项目组成员收到了一封关于视频数据策略的邮件，宣布他们已经编译了 3850 万个视频 URL。邮件中说：「根据计划，下周的收集视频的重点仍然是电影、无人机镜头、第一人称视角的镜头、自然风光。」邮件中还包含一张图表，显示了他们下载的内容类型的百分比。

这封邮件透露了一些关键技术信息，包括模型训练数据中的四个数据集：

Ego-Exo4D：一个多样化、大规模、多模式、多视角的视频数据集和基准，由 740 名相机佩戴者在全球 13 个城市收集，拍摄了 1286.3 小时的人类熟练活动视频。
Ego4D：这是一个大规模、以自我为中心的数据集和基准套件，在全球 9 个国家的 74 个地点收集了超过 3,670 小时的日常生活活动视频。
HOI4D：大规模 4D 以自我为中心的数据集，具有丰富的注释，可促进类别级别的人 - 物互动研究。HOI4D 由清华大学、北京大学和上海期智研究院的研究人员创建，采用 CC BY-NC 4.0 许可，禁止商业使用。
GeForce Now：游戏数据。

在另一封邮件中，Cosmos 项目的成员表示：「研究团队现在正在用多种配置训练一个 10 亿参数的模型，每种配置有 16 个节点。在进一步扩展之前，这是一个重要的调试步骤。我们计划在几周内得出结论，然后扩展到 100 亿参数模型。」

「这个更新很棒！」英伟达 CEO 黄仁勋回了这封邮件，他表示：「许多公司都将构建视频基础模型作为目标，我们完全可以做一个加速的 pipeline。」

6 月，项目组成员讨论了在保持人工智能行业竞争力的背景下，模型中哪些类型的内容对英伟达的产品最有用。

「NVIDIA 拥有大多数内容公司所没有的机器人、自动驾驶、Omniverse 和 Avatar。为了最大限度地推动公司发展，我们整理的数据必须能够很好地适用于这些『杀手级』应用程序」，Cosmos 项目的成员说道。

毫无疑问的是，Cosmos 团队正在开发的模型旨在用于其多种产品的商业用途。

在要求这些公司完全公开训练数据的法案落地之前，他们将继续利用法律灰色地带来抓取受版权保护的数据。如果没有内部邮件或者内网对话泄密，任何人都不知道背地里到底发生了什么，而这样的模型可以让像 Nvidia、Runway 或 OpenAI 等科技巨头赚到数十亿美元。