今天,一则关于英伟达要下场做视频模型的消息引爆了 Reddit。
消息源出自外媒 404 Media,据它获得的 Slack 聊天(英伟达的内部聊天平台)、电子邮件和文件显示,英伟达正在从 Youtube 和其他几个来源抓取视频,收集用于其 AI 产品的训练数据。
404 Media 查看的英伟达内部对话显示,当参与该项目的员工提出有关使用「禁止商用的研究数据集」和「YouTube 视频」可能产生法律问题时,管理人员告诉他们,他们已获得公司最高层的批准,可以使用这些内容。
一位匿名的前英伟达员工对此表示,员工被要求从 Netflix、YouTube 和其他来源抓取视频,以训练的 Omniverse 3D 世界生成器、自动驾驶汽车系统和「数字人」产品的 AI 模型。
该项目内部命名为 Cosmos(但与公司现有的 Cosmos 深度学习产品不同),尚未向公众发布。该项目领导层发给员工的电子邮件显示,Cosmos 的目标是构建一个最先进的视频基础模型,「将光传输、物理和智能模拟封装在一个地方,以解锁对英伟达至关重要的各种下游应用。」
为了收集训练视频,英伟达员工使用名为「 yt-dlp」的开源 YouTube 视频下载器。他们试图从 Netflix 等各种来源下载完整视频,但主要集中在 YouTube 视频。404 Media 查看的电子邮件显示,项目经理选择了使用 Amazon Web Services 中的 20 到 30 台虚拟机,每天下载相当于 80 年的视频。
英伟达研究副总裁兼 Cosmos 项目负责人 Ming-Yu Liu 在 5 月份的一封电子邮件中表示:「我们正在完成 v1 数据 pipeline 并确保必要的计算资源,以构建一个视频数据工厂,该工厂每天可以产生相当于人类一生视觉体验的训练数据。」
当被问及英伟达使用 YouTube 视频作为其模型的训练数据时,谷歌发言人告诉 404 Media 称,该公司「此前的立场仍然有效」。此前 YouTube 首席执行官 Neal Mohan 表示,如果 OpenAI 使用 YouTube 视频来改进其 AI 视频生成器 Sora,那将「明显违反」YouTube 使用条款。
同样地,Netflix 发言人告诉 404 Media,公司与英伟达并未就内容采集达成协议,而且该平台的服务条款不允许抓取内容。
不过,英伟达方面似乎并不在意。参与该项目的员工提出的法律问题经常被项目经理驳回并表示,未经许可抓取视频的决定是「行政决定」,他们不需要担心,而什么是公平、合乎道德地使用受版权保护的内容以及学术、非商业用途数据集的问题被认为是「悬而未决的法律问题」,他们将来会解决。
英伟达视频模型项目始末
和其他科技巨头类似,英伟达聘用学术研究人才发表学术成果,但从 404 Media 获取的内部邮件可以看出,Cosmos 显然将用于商业用途。
今年三月,一位英伟达的研究员在 Slack 上发帖,提议用《阿凡达》或《指环王》这样的好莱坞电影来训练 OpenAI Sora,可能效果会更好。
随后,他的提议得到了公司内的认可,但他也补充道,好莱坞对 AI 可能侵占版权的事格外敏感。2023 年七月,拥有 16 万会员的好莱坞三大工会之一 SAG-AFTRA 宣布罢工,矛头直指 ChatGPT 和 Stable Diffusion 等生成式 AI 产品,在此之前,美国编剧工会已经罢工 70 多天。Stable Diffusion 存在这样的情况,即使不输入对应的提示词,输入「动漫画风的水管工」这样的模糊描述,Stable Diffusion 会直接生成马里奥的经典形象。
在这个帖子下,一位名叫「Liu」的员工(即英伟达研究副总裁Ming-Yu Liu(刘洺堉)回复道:「如果不公开发表论文,就不会引来以上负面问题。我们应该先用能下载的视频进行实验。」
之后,有另外一位英伟达研究员又在内网发了一个帖子,他找到了一份训练视频模型应该优先下载的文件列表,但是英伟达所使用 HD-VILA-100M 数据集中却缺少约 230 万个原始视频。这个不断扩张的列表中还包含一些知名 YouTuber 的原创视频,比如在北美和知名度类似「大家好我是何同学」的数码评测博主 Marques Brownlee(MKBHD)。
出于对版权的保护,一般的视频数据集往往收录 URL 链接或者 YouTube ID,一旦作者删除了原视频,这些内容将不会继续被包含在数据集中,除非视频作者明确同意其内容被保留和使用。
虽然微软在其 HD-VILA-100M 数据集的使用声明中明确禁止用于一切商业用途,但是发帖的英伟达员工似乎并不在意,他很快贴出了这份列表对应的 YouTube 链接,并和同事们讨论出了用 AWS 虚拟机换 IP,规避 YouTube 反爬虫机制的解决方案。
除此之外,英伟达的员工还将手伸向了 Google 发布的大规模视频理解数据集 YouTube-8M。和自行补全微软的数据集不同,他们和 YouTube 以及 YouTube 现在的母公司的谷歌达成了一笔「交易」,英伟达以每支视频 0.00625 美元(约等于人民币 4 分钱)的价格买下了 800 万支视频,并将通过谷歌云下载。不考虑出卖版权的问题,谷歌可能以为赚回了这些视频的广告费,但英伟达本来在云带宽方面就存在一些限制,在谷歌云上下载,反而通过能获得更加稳定和可预测的连接。因此,无论从哪个角度来看,这笔「交易」似乎都对英伟达有利。
更令人诧异的是,当有英伟达员工在内网提问:「我们这样下载 YouTube 视频合理吗?」
「这是一个高层决策。我们已经获得了使用所有数据的全面批准。」他得到了这样的回复。
这个决策所允许使用的数据还包含 Netflix 上的视频作品。Netflix 的数据包含很多高质量的人脸数据,在得到批准后,有人在公司内网 @了有在其他大公司「构建大型数据集」的经验的同事帮忙。
同时,Cosmos 团队还考虑了如何有效将游戏画面添加到训练数据中的问题。英伟达高级研究科学家 Jim Fan 在捕获实时游戏画面时也遇到了「监管」的障碍。
Jim Fan 发了个帖子说:
更新:我一直在与 GeForce Now(GFN)的人员开会,和他们制定计划。我们将与 GFN 及相关工程团队紧密合作,开发捕获实时游戏数据的方法,扩大 pipeline 的规模,并对数据加以处理用于训练。高质量的游戏视频将对「我们的 Sora」提供非常有用的补充...... 因为还没有用来捕获实时游戏视频和动作的设备,因此还没有进行统计,但我们将尽快将清理和处理过的 GFN 数据添加到 team-vfm。
今年三月份,Cosmo 项目的视频数据收集达到了一个里程碑:Nvidia 在两周内完成了 10 万次视频下载。
「进展惊人。现在的问题是我们如何才能获得大量高质量的 URL。」Liu 在这个帖子中回复道。
5 月下旬,项目组成员收到了一封关于视频数据策略的邮件,宣布他们已经编译了 3850 万个视频 URL。邮件中说:「根据计划,下周的收集视频的重点仍然是电影、无人机镜头、第一人称视角的镜头、自然风光。」邮件中还包含一张图表,显示了他们下载的内容类型的百分比。
这封邮件透露了一些关键技术信息,包括模型训练数据中的四个数据集:
- Ego-Exo4D:一个多样化、大规模、多模式、多视角的视频数据集和基准,由 740 名相机佩戴者在全球 13 个城市收集,拍摄了 1286.3 小时的人类熟练活动视频。
- Ego4D:这是一个大规模、以自我为中心的数据集和基准套件,在全球 9 个国家的 74 个地点收集了超过 3,670 小时的日常生活活动视频。
- HOI4D:大规模 4D 以自我为中心的数据集,具有丰富的注释,可促进类别级别的人 - 物互动研究。HOI4D 由清华大学、北京大学和上海期智研究院的研究人员创建,采用 CC BY-NC 4.0 许可,禁止商业使用。
- GeForce Now:游戏数据。
在另一封邮件中,Cosmos 项目的成员表示:「研究团队现在正在用多种配置训练一个 10 亿参数的模型,每种配置有 16 个节点。在进一步扩展之前,这是一个重要的调试步骤。我们计划在几周内得出结论,然后扩展到 100 亿参数模型。」
「这个更新很棒!」英伟达 CEO 黄仁勋回了这封邮件,他表示:「许多公司都将构建视频基础模型作为目标,我们完全可以做一个加速的 pipeline。」
6 月,项目组成员讨论了在保持人工智能行业竞争力的背景下,模型中哪些类型的内容对英伟达的产品最有用。
「NVIDIA 拥有大多数内容公司所没有的机器人、自动驾驶、Omniverse 和 Avatar。为了最大限度地推动公司发展,我们整理的数据必须能够很好地适用于这些『杀手级』应用程序」,Cosmos 项目的成员说道。
毫无疑问的是,Cosmos 团队正在开发的模型旨在用于其多种产品的商业用途。
在要求这些公司完全公开训练数据的法案落地之前,他们将继续利用法律灰色地带来抓取受版权保护的数据。如果没有内部邮件或者内网对话泄密,任何人都不知道背地里到底发生了什么,而这样的模型可以让像 Nvidia、Runway 或 OpenAI 等科技巨头赚到数十亿美元。