CVPR 2023最佳论文候选出炉，12篇上榜！武大、港中文、商汤等国内机构多篇入选-51CTO.COM

CVPR 2023举办在即。

今天，官方公布了12篇获奖论文候选。（占接受论文的0.51%，占提交论文的0.13%）

根据官网上统计数据，本次CVPR一共接受论文9155篇，录用2359篇，接受率为25.8%。

其中，235篇被评为Highlights。（占接受论文的10%，占提交论文的2.6%）

1. Ego-Body Pose Estimation via Ego-Head Pose Estimation

作者：Jiaman Li，Karen Liu，Jiajun Wu

机构：斯坦福大学

论文地址：https://arxiv.org/pdf/2212.04636.pdf

本文中，研究人员提出了一种新的方法，即通过自我-头部姿势估计的自我身体姿势估计（EgoEgo），它将问题分解为两个阶段，由头部运动作为中间表征来连接。EgoEgo首先整合了SLAM和一种学习方法，以估计准确的头部运动。

随后，利用估计的头部姿势作为输入，EgoEgo利用条件扩散，以产生多个可信的全身运动。这种头部和身体姿势的分离消除了对配对自我中心视频和三维人体运动的训练数据集的需要，使研究人员能够分别利用大规模自我中心视频数据集和运动捕捉数据集。

此外，为了进行系统的基准测试，研究人员开发了一个合成数据集AMASS-Replica-Ego-Syn（ARES），其中包括成对的自我中心视频和人类运动。在ARES和真实数据上，研究人员的EgoEgo模型的表现明显优于目前最先进的方法。

2. 3D Registration with Maximal Cliques

作者：Xiyu Zhang，Jiaqi Yang，Shikun Zhang，Yanning Zhang

3. OmniObject3D: Large Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation

作者：Tong Wu，Jiarui Zhang，Xiao Fu，Yuxin WANG，Jiawei Ren，Liang Pan，Wenyan Wu，Lei Yang，Jiaqi Wang，Chen Qian，Dahua Lin，Ziwei Liu

机构：上海人工智能实验室，香港中文大学，商汤，香港科技大学，南洋理工大学

论文地址：https://arxiv.org/pdf/2301.07525.pdf

由于缺乏大规模的真实扫描三维数据库，最近在三维物体建模方面的进展大多依赖于合成数据集。

为了促进现实世界中3D感知、重建和生成的发展，研究人员提出了OmniObject3D，一个具有大规模高质量真实扫描3D物体的大型词汇3D物体数据集。

OmniObject3D有几个吸引人的特性：1）超大数据量：它包括190个日常类别的6000个扫描物体，与流行的二维数据集（如ImageNet和LVIS）共享共同的类别，有利于追求可通用的三维表征。2）丰富的注释：每个三维物体都由二维和三维传感器捕获，提供纹理网格、点云、多视角渲染图像和多个真实捕获的视频。3) 真实的扫描：专业扫描仪支持高质量的物体扫描，具有精确的形状和逼真的外观。

利用OmniObject3D提供的广阔探索空间，研究人员精心设置了四个评估基准：a）强大的3D感知，b）新视角合成，c）神经表面重建，以及d）3D物体生成。

4. MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures

作者：Zhiqin Chen，Thomas Funkhouser，Peter Hedman，Andrea Tagliasacchi

机构：谷歌，西蒙菲莎大学，多伦多大学

论文地址：https://arxiv.org/pdf/2208.00277.pdf

神经辐射场（NeRFs）在从新的视角合成三维场景的图像方面表现出惊人的能力。然而，它们依赖的专有体积渲染算法，与广泛部署的图形硬件的能力并不匹配。

本文介绍了一种新的基于纹理多边形的NeRF表征方法，它可以用标准渲染管道有效地合成新的图像。NeRF被表征为一组多边形，其纹理代表二进制不透明度和特征矢量。用Z型缓冲器对多边形进行传统的渲染，得到的图像在每个像素上都有特征，这些特征被运行在片段着色器中的一个小型的、依赖于视图的MLP解释，以产生最终的像素颜色。

这种方法使NeRF能够用传统的多边形光栅化管道进行渲染，它提供了大规模的像素级并行性，在包括手机在内的各种计算平台上实现了足以进行交互的帧率。

5. DynIBaR: Neural Dynamic Image-Based Rendering

作者：Zhengqi Li，Qianqian Wang，Forrester Cole，Richard Tucker，Noah Snavely

机构：谷歌，康奈尔科技校区

论文地址：https://arxiv.org/pdf/2211.11082.pdf

本文中，研究人员提出了一种基于体积图像的渲染框架，该框架通过以场景运动感知的方式，来聚合附近的视点特征，从而合成新的视点。

研究人员的系统保留了先前方法的优点，即能够对复杂的场景和视点相关的效果进行建模，而且还能够从具有复杂场景动态和无约束相机轨迹的长视频中合成照片般真实的新视点。

结果证明，在动态场景数据集上，新方法比SOTA有明显改进。并且，还能应用于颇具挑战性的运动视频当中，此前的方法在这里都无法产生高质量的渲染。

6. Planning-oriented Autonomous Driving

作者：Yihan Hu，Jiazhi Yang，Li Chen，Keyu Li，Chonghao Sima，Xizhou Zhu，Siqi Chai，Senyao Du，Tianwei Lin，Wenhai Wang，Lewei Lu，Xiaosong Jia，Qiang Liu，Jifeng Dai，Yu Qiao，Hongyang Li

机构：上海人工智能实验室自动驾驶团队，武汉大学，商汤

论文地址：https://arxiv.org/pdf/2212.10156.pdf

本文中，研究人员提出了一种全新的综合框架——统一自动驾驶（UniAD）。通过将全栈式的驾驶任务纳入一个网络，该框架可以利用每个模块的优势，并从全局角度为智能体交互提供互补的特征抽象。任务通过统一的查询接口进行通信，从而促进彼此的规划。

研究人员在具有挑战性的nuScenes基准上对UniAD进行了实例化。消融实验显示，新方法在各个方面的性能都大大优于此前的SOTA。

7. DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

作者：Nataniel Ruiz，Yuanzhen Li，Varun Jampani，Yael Pritch，Michael Rubinstein，Kfir Aberman

机构：谷歌，波士顿大学

论文地址：https://arxiv.org/pdf/2208.12242.pdf

在这项工作中，研究人员提出了一种新的「个性化」文本到图像扩散模型的方法。

只需输入少数几张主体的图片，就可以微调预训练的文本到图像模型，使其学会将独特的标识符与特定主体绑定。一旦将主体嵌入模型的输出域，就可以使用独特的标识符在不同场景中合成该主体的新的真实感图像。

通过利用模型中嵌入的语义先验以及新的自生类特定先验保留损失，新的方法使得在各种场景、姿态、视角和光照条件下合成主体成为可能，而这些条件在参考图像中并未出现。

8. On Distillation of Guided Diffusion Models

作者：Chenlin Meng，Robin Rombach，Ruiqi Gao，Diederik Kingma，Stefano Ermon，Jonathan Ho，Tim Salimans

机构：斯坦福大学，Stability AI，慕尼黑大学，谷歌

论文地址：https://arxiv.org/pdf/2210.03142.pdf

无分类器指导的扩散模型的一个缺点是，它们在推理时的计算成本很高，因为它们需要评估两个扩散模型，一个类别条件模型和一个无条件模型，需要数十到数百次。

为了解决这一局限性，研究人员提出了一种将无分类器指导的扩散模型提炼成快速采样的模型的方法。

给定一个预先训练好的无分类器指导的模型，首先学习一个单一的模型来匹配合并的条件和无条件模型的输出，然后逐步将该模型提炼成一个需要更少采样步骤的扩散模型。

9. Visual Programming: Compositional visual reasoning without training

作者：Tanmay Gupta，Aniruddha Kembhavi

机构：艾伦人工智能研究所

论文地址：https://arxiv.org/pdf/2211.11559.pdf

研究人员提出了一种神经符号方法VISPROG，用于解决给定自然语言指令的复杂和组合性的视觉任务。

VISPROG使用大型语言模型的非文本学习能力来生成类似于python的模块化程序，然后执行这些程序以获得解决方案和一个全面的、可解释的理由。

生成的程序的每一行都可以调用几个现成的CV模型、图像处理子程序或python函数中的一个，以产生中间输出。

研究人员在4个不同的任务上展示了VISPROG的灵活性：组合式视觉问题回答、图像对的零点推理、事实知识对象标签和语言引导的图像编辑。

研究人员表示，像VISPROG这样的神经符号方法是一条令人兴奋的途径，可以轻松有效地扩大人工智能系统的范围，为人们可能希望执行的长尾复杂任务提供服务。

10. What Can Human Sketches Do for Object Detection?

作者：Pinaki Nath Chowdhury，Ayan Kumar Bhunia，Aneeshan Sain，Subhadeep Koley，Tao Xiang，Yi-Zhe Song

机构：萨里大学

论文地址：https://arxiv.org/pdf/2303.15149.pdf

草图，具有很强的表现力，本身就能捕捉到主观和细粒度的视觉线索。然而，当前对草图这种先天属性的探索仅限于图像检索领域。

论文中，研究人员尝试开发草图的表现力，而不是目标检测这一基本视觉任务。

研究人员首先对SBIR模型的草图和照片分支进行独立提示，在CLIP的泛化能力的基础上建立高度可泛化的Sketches和照片编码器。

然后，研究人员设计了一个训练范式，使编码器适用于物体检测，这样，检测到的边界款区域的嵌入，与SBIR的草图和照片嵌入对齐。

通过在标准目标检测数据集（如PASCAL-VOC和MS-COCO）上评估最新框架，可见在零样本设置上优于受监督（SOD）和弱监督目标检测器（WSOD）。

11. Data-driven Feature Tracking for Event Cameras

作者：Nico Messikommer，Carter Fang，Mathias Gehrig，Davide Scaramuzza

机构：苏黎世大学

论文地址：https://arxiv.org/pdf/2211.12826.pdf

现有的事件相机特征跟踪方法要么是人工制作的，要么是从第一性原理中推导出来的，但需要大量的参数调整，且对噪声敏感，由于未建模的效应，无法泛化到不同的场景。

为了解决这些不足，研究人员引入了第一个数据驱动的事件相机特征跟踪器，该跟踪器利用低延迟的事件来跟踪在灰度帧中检测到的特征。

通过直接从合成数据无缝转移到真实数据，新的数据驱动跟踪器在相对特征年龄上超过了现有方法高达120%，同时也实现了最低的延迟。通过使用一种新的自监督策略让跟踪器适应真实数据，这个性能差距进一步增加到130%。

12. Integral Neural Networks

作者：Kirill Solodskikh，Azim Kurbanov，Ruslan Aydarkhanov，Irina Zhelavskaya，Yury Parfenov，Dehua Song，Stamatios Lefkimmiatis

机构：华为诺亚方舟实验室

论文地址：https://openaccess.thecvf.com/content/CVPR2023/papers/Solodskikh_Integral_Neural_Networks_CVPR_2023_paper.pdf

研究人员介绍了一个新的深度神经网络系列。研究人员使用了沿过滤器和通道维度的连续层表征，而不是传统的网络层作为N维权重张量的表示。研究人员称这种网络为积分神经网络（INNs）。

特别是，INNs的权重被表示为定义在N维超立方体上的连续函数，而输入到各层的离散转换也相应地被连续的集成操作所取代。

在推理阶段，连续层可以通过数值积分求积法转换为传统的张量表示。这种表示允许网络以任意大小和各种离散化间隔对积分核进行离散化。

这种方法可用于直接在边缘设备上对模型进行剪枝，而在没有任何微调的情况下，即使在高剪枝率下也只会有小的性能损失。

为了评估提出方法的实际效益，研究人员在多个任务上使用各种神经网络架构进行了实验。

报告结果显示，所提出的INNs实现了与传统的离散对应物相同的性能，同时能够在不进行微调的高剪枝率（高达30%）下保持大致相同的性能（对于Imagenet上的ResNet18，精度损失为2%），而传统剪枝方法在相同条件下的准确性损失65%。

参考资料：

https://cvpr2023.thecvf.com/Conferences/2023/AcceptedPapers