CVPR 2024最佳论文奖公布!生成式AI成最大赢家
CVPR 2024
本次CVPR共有来自全球的2719篇论文被接收,录用率为23.6%,相较去年下降2.2%。可以看到,其他国内玩家也表现不俗,都有不少论文入选。
比如像腾讯优图实验室,此前曝光称有20篇入选,覆盖多模态、人脸识别、视觉分割等多个方向。
这周,CVPR2024在美国西雅图正在进行中。
CVPR 2024 最佳论文奖
一共两篇获奖。
第一篇是Rich Human Feedback for Text-to-Image Generation
最近的文本到图像(T2I)生成模型,如Stable Diffusion和Imagen,在基于文本描述生成高分辨率图像方面取得了显著进展。然而,许多生成的图像仍然存在问题,例如伪影/不合理性、与文本描述不一致以及美学质量较低。受到在大型语言模型中使用人类反馈的强化学习(RLHF)取得的成功启发,先前的研究收集了人类提供的对生成图像的评分作为反馈,并训练了奖励模型以改善T2I生成。
在本文中,通过以下方式丰富反馈信号:(i)标记图像中不合理或与文本不一致的区域,(ii)注释文本提示中被误代或遗漏在图像上的单词。我们在18000张生成的图像上收集了这样的丰富人类反馈(RichHF-18K),并训练了一个多模态变压器来自动预测这些丰富的反馈。我们展示了预测的丰富人类反馈可以用于改善图像生成,例如通过选择高质量的训练数据对生成模型进行微调和改进,或者通过创建带有预测热图的掩码来修复问题区域。
值得注意的是,这些改进不仅适用于收集人类反馈数据的图像生成模型(如Stable Diffusion的变体),还可以推广到其他模型(如Muse)。RichHF-18K数据集将在我们的
GitHub仓库发布:https://github.com/google-research/google-research/tree/master/richhf_18k
另一篇是Generative Image Dynamics
理论性更强,提出了一种基于图像空间先验的场景运动建模方法,可用于通过静态图像生成无缝循环视频,还能实现与图像中目标的交互。
文章提出了一种建模场景运动图像空间先验的方法。先验是从展示自然振荡动态(如树木、花朵、蜡烛和风中飘动的衣物)的真实视频序列中提取的运动轨迹集合中学习得到的。在傅里叶域中建模了稠密的长期运动,将其表示为频谱体积,发现这种表示非常适合扩散模型的预测。在给定单张图像的情况下,训练的模型使用频率协调的扩散抽样过程来预测一个频谱体积,然后可以将其转换为覆盖整个视频的运动纹理。结合基于图像的渲染模块,预测的运动表示可以用于多种下游应用,例如将静止图像转换为无缝循环的视频,或者允许用户与图像中的对象进行交互,生成真实的模拟动态(通过解释频谱体积作为图像空间的模态基础)。更多结果请参见我们的项目页面:generative-dynamics.github.io
CVPR 2024 最佳学生论文奖
一篇BioCLIP: A Vision Foundation Model for the Tree of Life,构建了TreeOfLife-10M这个大规模生物学图像数据集,并提出BioCLIP基础模型来学习生物分类的层次表示。
自然界的图像,通过各种摄像设备收集,从无人机到个人手机,正在成为获取生物信息的日益丰富的来源。计算方法和工具,尤其是计算机视觉,正在迅速发展,用于从图像中提取与生物学相关的信息,用于科学研究和保护。然而,大多数这些方法都是为特定任务设计的定制方法,不易适应或扩展到新的问题、背景和数据集。现在正是需要一个面向图像的通用生物学问题的视觉模型的时候。为了解决这个问题,研究人员策划并发布了TreeOfLife-10M,这是迄今为止最大、最多样化的面向机器学习的生物图像数据集。然后,开发了BioCLIP,这是一个基于生命之树的基础模型,利用TreeOfLife-10M捕捉到的生物学独特属性,即植物、动物和真菌的图像丰富多样性,以及丰富的结构化生物知识的可用性。在多样的细粒度生物分类任务上对我们的方法进行了严格的基准测试,并发现BioCLIP始终明显优于现有的基线模型(绝对优势为16%到17%)。内在评估显示,BioCLIP已学习到符合生命之树的分层表示,揭示了其强大的泛化能力。详细信息可查看:https://imageomics.github.io/bioclip,该网站提供模型、数据和代码。
另一篇是3D Gaussian Splatting领域的Mip-Splatting: Alias-free 3D Gaussian Splatting,通过引入3D平滑滤波器、用2D Mip滤波器替换2D膨胀滤波器来消除伪影和混叠等问题。
最近,3D Gaussian Splatting在新视角合成方面展示了令人印象深刻的结果,达到了高保真度和效率。然而,当改变采样率,例如改变焦距或相机距离时,会观察到明显的伪影。我们发现,这种现象的根源可以归因于缺乏3D频率约束以及使用2D膨胀滤波器。为了解决这个问题,引入了一种3D平滑滤波器,根据输入视图引起的最大采样频率约束3D高斯基元的大小,从而在放大时消除高频伪影。此外,用模拟2D box滤波器的2D Mip滤波器替换2D膨胀,有效地缓解了混叠和膨胀问题。我们的评估包括在单一尺度图像上训练和在多个尺度上测试的场景,验证了我们方法的有效性。
本文转自 AI生成未来 ,作者:AI生成未来