视频版IC-Light来了！Light-A-Video提出渐进式光照融合，免训练一键视频重打光-51CTO.COM

本文作者来自于上海交通大学，中国科学技术大学以及上海人工智能实验室等。其中第一作者周彧杰为上海交通大学二年级博士生，师从牛力副教授。

数字化时代，视频内容的创作与编辑需求日益增长。从电影制作到社交媒体，高质量的视频编辑技术成为了行业的核心竞争力之一。然而，视频重打光（video relighting）—— 即对视频中的光照条件进行调整和优化，一直是这一领域的技术瓶颈。传统的视频重打光方法面临着高昂的训练成本和数据稀缺的双重挑战，导致其难以广泛应用。

如今，这一难题终于迎来了突破 —— 由上海交通大学以及上海人工智能实验室联合研发的 Light-A-Video 技术，为视频重打光带来了全新的解决方案。

论文地址：https://arxiv.org/abs/2502.08590
项目主页：https://bujiazi.github.io/light-a-video.github.io/
代码地址：https://github.com/bcmi/Light-A-Video

无需训练，零样本实现视频重打光

Light-A-Video 是一种无需训练的视频重打光方法，能够在没有任何训练或优化的情况下，生成高质量、时序一致的重打光视频。这一技术的核心在于充分利用预训练的图像重打光模型（如 IC-Light）和视频扩散模型（如 AnimateDiff 和 CogVideoX），通过创新的 Consistent Light Attention（CLA）模块和 Progressive Light Fusion（PLF）策略，针对视频内容的光照变化进行了一致性的优化，实现了对视频序列的零样本（zero-shot）光照控制。

其优势在于：

1. 无需训练，高效实现视频重打光：Light-A-Video 是首个无需训练的视频重打光模型，能够直接利用预训练的图像重打光模型（如 IC-Light）的能力，生成高质量且时间连贯的重打光视频。这种方法避免了传统视频重打光方法中高昂的训练成本和数据稀缺的问题，显著提高了视频重打光的效率和扩展性。

2. 创新的端到端流程，确保光照稳定性与时序一致性：CLA 模块通过增强跨帧交互，稳定背景光源的生成，减少因光照不一致导致的闪烁问题。PLF 通过渐进式光照融合策略，逐步注入光照信息，确保生成视频外观的时间连贯性。

3. 广泛的适用性与灵活性：Light-A-Video 不仅支持对完整输入视频的重打光，还可以对输入的前景序列进行重打光，并生成与文字描述相符的背景。而且不依赖于特定的视频扩散模型，因此与多种流行的视频生成框架（如 AnimateDiff、CogVideoX 和 LTX-Video）具有高度的兼容性。

CLA + PLF

确保光照一致性与稳定性

Light-A-Video 核心技术包括两个关键模块：Consistent Light Attention 和 Progressive Light Fusion。CLA 模块通过增强自注意力层中的跨帧交互，稳定背景光照源的生成。它引入了一种双重注意力融合策略，一方面保留原始帧的高频细节，另一方面通过时间维度的平均处理，减少光照源的高频抖动，从而实现稳定的光照效果。实验表明，CLA 模块显著提高了视频重打光的稳定性，减少了因光照不一致导致的闪烁问题。

PLF 策略则进一步提升了视频外观的稳定性。它基于光传输理论的光照线性融合特性，通过逐步混合的方式，将重打光外观与原始视频外观进行融合。在视频扩散模型的去噪过程中，PLF 策略逐步引导视频向目标光照方向过渡，确保了时间连贯性。这种渐进式的光照融合方法不仅保留了原始视频的细节，还实现了平滑的光照过渡。