1.2万人朝圣CVPR，华人学者夺最佳论文！Sora舵手火爆演讲成大型追星现场-51CTO.COM

2024年CVPR会议将在美国西雅图拉开帷幕，根据官方的公告，本届会议已经成为CVPR历史上规模最大、参与人数最多的一届，截止6月19日，现场参会人数已超过1.2万人。

此外，近年来的论文接收数量也水涨船高，共有11532篇提交论文，录用率为23.58%，比去年的9155篇论文多出了2000多篇。

由于开年Sora模型带起的视频生成的热潮，今年CVPR接收论文数量最多的领域就是「图像视频的合成与生成」，紧随其后的两个领域分别是「多视角和传感器的3D」以及「人体：面部、躯体、姿势、手势和移动」。

从会议现场的照片中，也能肉眼感受到CVPR的热烈程度。

揭秘Sora训练技巧

Sora研究团队的负责人Tim Brooks也在研讨会上发表了演讲，揭秘了Sora模型的一些训练技巧以及视频生成模型未来的新功能。

演讲中，Brooks表示自己看好Transformer架构的可扩展性，如果算力足够，我们有望借此实现世界模拟器。

此外他也分享了一些训练模型的心得，比如不要为了某个特定任务去调整模型架构，而是先考虑让数据适应任务。

比如，Sora在训练时的技巧就多与数据有关，包括使用不同比例的图像和视频，以及搭配字幕训练。

有推特网友表示，Brooks的演讲堪比追星现场，都差点挤不进去。

当然，最重磅的还是CVPR在今天凌晨的大会开幕演讲上。正式官宣了2024年最佳论文、最佳学生论文等大奖的得主。

该奖项每年都会表彰在计算机视觉、人工智能（AI）、机器学习（ML）、增强现实、虚拟现实和混合现实（AR/VR/MR）、深度学习等领域的顶尖研究。

今年，CVPR从超过11,500篇论文提交中，选出了以下10篇最佳论文——是2023年的两倍之多。

最佳论文

题目：Generative Image Dynamics

作者：Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynsk

机构：谷歌研究院

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Li_Generative_Image_Dynamics_CVPR_2024_paper.pdf

在这项工作中，作者提出了一种从单张静态图片中建模自然振荡动态效果的新方法。该方法能够从单张图片生成照片般真实的动画，并显著优于现有的基准方法。此外，他们还展示了在多个后续应用中的潜力，例如创建无缝循环或交互式图像动态效果。

题目：Rich Human Feedback for Text-to-Image Generation

作者：Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy, Nicholas Carolan, Jiao Sun, Jordi Pont-Tuset, Sarah Young, Feng Yang, Junjie Ke, Krishnamurthy Dj Dvijotham, Katherine M. Collins, Yiwen Luo, Yang Li, Kai J. Kohlhoff, Deepak Ramachandran, Vidhya Navalpakkam

机构：，加利福尼亚大学圣地亚哥分校，谷歌研究院，南加利福尼亚大学，剑桥大学，布兰迪斯大学

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Liang_Rich_Human_Feedback_for_Text-to-Image_Generation_CVPR_2024_paper.pdf

在这项工作中，作者提出了第一个详尽的用于图像生成的人类反馈数据集。具体来说，他们设计并训练了一个多模态Transformer来预测这些详尽的人类反馈，并展示了一些改进图像生成的实例。

这篇论文的共同一作分别是华南农业大学校友Youwei Liang、清华校友Junfeng He、武大及港中文校友Gang Li。

荣誉提名

题目：EventPS: Real-Time Photometric Stereo Using an Event Camera

作者：Bohan Yu, Jieji Ren, Jin Han, Feishi Wang, Jinxiu Liang, Boxin Shi

机构：北京大学，上海交通大学，东京大学，国立情报学研究所

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf

题目：pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

作者：David Charatan, Sizhe Lester Li, Andrea Tagliasacchi, Vincent Sitzmann

机构：麻省理工学院，西门菲莎大学，多伦多大学

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf

最佳学生论文

题目：Mip-Splatting: Alias-free 3D Gaussian Splatting

作者：Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger

机构：图宾根大学，图宾根AI中心，上海科技大学，捷克理工大学

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_Mip-Splatting_Alias-free_3D_Gaussian_Splatting_CVPR_2024_paper.pdf

在这项工作中，作者提出了一种通过3D平滑滤波器和2D Mip滤波器改进3D高斯泼溅（3DGS）的全新方法Mip-Splatting，用于在任何尺度上进行无锯齿渲染。该方法在分布外测试场景中显著优于当前最先进的方法，当测试采样率与训练采样率不同的时候，能够更好地适应分布外的相机姿态和缩放因子。

值得一提的是，论文的三位一作Zehao Yu、Anpei Chen（陈安沛）、Binbin Huang，都是上海科技大学在读或毕业生。

题目：BioCLIP: A Vision Foundation Model for the Tree of Life

作者：Samuel Stevens, Jiaman Wu, Matthew J. Thompson, Elizabeth G. Campolongo, Chan Hee Song, David Edward Carlyn, Li Dong, Wasila M. Dahdul, Charles Stewart, Tanya Berger-Wolf, Wei-Lun Chao, and Yu Su

机构：俄亥俄州立大学，微软研究院，加利福尼亚大学尔湾分校，伦斯勒理工学院

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Stevens_BioCLIP_A_Vision_Foundation_Model_for_the_Tree_of_Life_CVPR_2024_paper.pdf

在这项工作中，作者提出了TREEOFLIFE-10M和BIOCLIP，分别是一个大规模多样化的生物图像数据集和一个用于生命之树的基础模型。研究表明，BIOCLIP是一个强大的细粒度生物分类器，在零样本和少样本设置中有着出色的表现。

荣誉提名

题目：SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency

作者：Paul Roetzer, Florian Bernard

机构：波恩大学

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf

题目：Image Processing GNN: Breaking Rigidity in Super-Resolution

作者：Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang

机构：北京大学，华为诺亚方舟实验室

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_2024_paper.pdf

题目：Objects as Volumes: A Stochastic Geometry View of Opaque Solids

作者：Bailey Miller, Hanyu Chen, Alice Lai, Ioannis Gkioulekas

机构：卡内基梅隆大学

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Miller_Objects_as_Volumes_A_Stochastic_Geometry_View_of_Opaque_Solids_CVPR_2024_paper.pdf

题目：Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods

作者：Mingqi Jiang, Saeed Khorram, Li Fuxin

机构：俄勒冈州立大学

论文地址：https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_2024_paper.pdf

此外，CVPR的主办方电气和电子工程师学会计算机协会（IEEE Computer Society, CS），也正式宣布了模式分析和机器智能技术社区（TCPAMI）的奖项。

Longuet-Higgins奖

该奖项授予那些经得起时间检验的论文，2024年的Longuet-Higgins奖表彰了2014年在CVPR上发表的最具影响力的论文。

2024年获奖者：Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation（2014）

作者：Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik

机构：加利福尼亚大学伯克利分校，ICSI

论文地址：https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Girshick_Rich_Feature_Hierarchies_2014_CVPR_paper.pdf

在这项工作中，作者通过（1）标记图像中不合理或与文本不匹配的区域，以及（2）注释文本提示中被误表示或缺失的词语，来丰富反馈信号。

具体来说，他们在1.8万张生成图像（RichHF-18K）上收集了丰富的人类反馈，并训练了一个多模态Transformer来自动预测这些反馈。

实验结果展示了预测的丰富人类反馈可以用于改进图像生成，例如，通过选择高质量的训练数据来微调生成模型，或者通过创建带有预测热图的掩码来修补问题区域。

值得注意的是，这些改进不仅适用于生成反馈数据的模型（如Stable Diffusion变体），还可以推广到其他模型上（如Muse）。

年轻研究员奖

该奖项表彰在获得博士学位七年内对计算机视觉领域作出杰出研究贡献的一到两名研究人员。

2024年获奖者：Angjoo Kanazawa, Carl Vondrick

Angjoo Kanazawa是加利福尼亚大学伯克利分校电气工程与计算机科学系的助理教授，领导BAIR下的Kanazawa AI Research（KAIR）实验室，并在Wonder Dynamics的顾问委员会任职。

此前，她在马里兰大学帕克分校完成了计算机科学博士学位，导师是David Jacobs。之后，来到UC伯克利的BAIR做博士后研究，导师是Jitendra Malik、Alexei A. Efros和Trevor Darrell。此外，还曾在Google Research担任研究科学家。

众所周知，我们生活在一个动态的3D世界中，人和动物不断与环境互动。那么，我们该如何构建一个系统，从日常的照片和视频中捕捉、感知并理解这个4D世界？又该如何从图像和视频的观测中学习4D世界的先验知识呢？

Angjoo Kanazawa的研究方向涵盖了计算机视觉、计算机图形学和机器学习，并致力于回答上面这些问题。

Carl Vondrick是哥伦比亚大学计算机科学系的教授，研究方向主要集中在计算机视觉、机器学习及其应用。

此前，他于2011年在加利福尼亚大学尔湾分校获得学士学位，导师是Deva Ramanan。之后，于2017年在MIT获得博士学位，导师是Antonio Torralba。此外，还曾在谷歌的机器感知团队担任研究科学家，并在Cruise担任访问研究员。

具体来说，他的研究通过训练机器观察和与环境互动，旨在创建稳健且多功能的感知模型。实验室经常研究如何利用大量未标记数据进行任务和模态迁移。其他研究方向包括场景动态、声音和语言、可解释模型以及机器人感知等。

Thomas Huang纪念奖

该奖项于2020年设立，以纪念Thomas S. Huang，他是其时代计算机视觉、模式识别和人机交互领域的杰出人物。该奖项旨在表彰和致敬在计算机视觉社区中长期服务、研究和指导的杰出个人。

2024年获奖者：Andrea Vedaldi

Andrea Vedaldi是牛津大学工程科学系计算机视觉和机器学习专业的教授，同时担任VGG小组的联合负责人。

他主要研究计算机视觉和机器学习方法，目标是自动理解图像和视频的内容，并且几乎不需要人工监督，特别关注语义和3D几何。

此前，他在帕多瓦大学获得学士学位，并在加利福尼亚大学洛杉矶分校获得硕士和博士学位。