本文作者来自于上海交通大学,中国科学技术大学以及上海人工智能实验室等。其中第一作者周彧杰为上海交通大学二年级博士生,师从牛力副教授。
数字化时代,视频内容的创作与编辑需求日益增长。从电影制作到社交媒体,高质量的视频编辑技术成为了行业的核心竞争力之一。然而,视频重打光(video relighting)—— 即对视频中的光照条件进行调整和优化,一直是这一领域的技术瓶颈。传统的视频重打光方法面临着高昂的训练成本和数据稀缺的双重挑战,导致其难以广泛应用。
如今,这一难题终于迎来了突破 —— 由上海交通大学以及上海人工智能实验室联合研发的 Light-A-Video 技术,为视频重打光带来了全新的解决方案。
- 论文地址:https://arxiv.org/abs/2502.08590
- 项目主页:https://bujiazi.github.io/light-a-video.github.io/
- 代码地址:https://github.com/bcmi/Light-A-Video
无需训练,零样本实现视频重打光
Light-A-Video 是一种无需训练的视频重打光方法,能够在没有任何训练或优化的情况下,生成高质量、时序一致的重打光视频。这一技术的核心在于充分利用预训练的图像重打光模型(如 IC-Light)和视频扩散模型(如 AnimateDiff 和 CogVideoX),通过创新的 Consistent Light Attention(CLA)模块和 Progressive Light Fusion(PLF)策略,针对视频内容的光照变化进行了一致性的优化,实现了对视频序列的零样本(zero-shot)光照控制。
其优势在于:
1. 无需训练,高效实现视频重打光:Light-A-Video 是首个无需训练的视频重打光模型,能够直接利用预训练的图像重打光模型(如 IC-Light)的能力,生成高质量且时间连贯的重打光视频。这种方法避免了传统视频重打光方法中高昂的训练成本和数据稀缺的问题,显著提高了视频重打光的效率和扩展性。
2. 创新的端到端流程,确保光照稳定性与时序一致性:CLA 模块通过增强跨帧交互,稳定背景光源的生成,减少因光照不一致导致的闪烁问题。PLF 通过渐进式光照融合策略,逐步注入光照信息,确保生成视频外观的时间连贯性。
3. 广泛的适用性与灵活性:Light-A-Video 不仅支持对完整输入视频的重打光,还可以对输入的前景序列进行重打光,并生成与文字描述相符的背景。而且不依赖于特定的视频扩散模型,因此与多种流行的视频生成框架(如 AnimateDiff、CogVideoX 和 LTX-Video)具有高度的兼容性。
CLA + PLF
确保光照一致性与稳定性
Light-A-Video 核心技术包括两个关键模块:Consistent Light Attention 和 Progressive Light Fusion。CLA 模块通过增强自注意力层中的跨帧交互,稳定背景光照源的生成。它引入了一种双重注意力融合策略,一方面保留原始帧的高频细节,另一方面通过时间维度的平均处理,减少光照源的高频抖动,从而实现稳定的光照效果。实验表明,CLA 模块显著提高了视频重打光的稳定性,减少了因光照不一致导致的闪烁问题。
PLF 策略则进一步提升了视频外观的稳定性。它基于光传输理论的光照线性融合特性,通过逐步混合的方式,将重打光外观与原始视频外观进行融合。在视频扩散模型的去噪过程中,PLF 策略逐步引导视频向目标光照方向过渡,确保了时间连贯性。这种渐进式的光照融合方法不仅保留了原始视频的细节,还实现了平滑的光照过渡。
Light-A-Video 整体架构设计
1. 利用视频扩散模型的时序先验,将原始视频加噪到对应的步数后进行去噪。在每一步的去噪过程中,提取其预测的原始去噪目标并添加上对应的视频细节补偿项作为当前步的一致性目标
2. 将 输入图片重打光模型(IC-Light),并利用 CLA 的双流注意力模块进行逐帧重打光,实现稳定的背景光源生成,作为当前步的重打光的目标
。
3. 在预测下一步的时,先利用 VAE 编解码器将
和
从潜层编码空间解码到视频像素层面。然后通过引入一个渐进式随时间步下降的参数
将两个目标进行线性外观混合后,重新编码到潜层编码空间获取混合目标
。即 PLF 策略利用混合目标
引导生成单步的重打光结果
。
当视频完全去噪后,Light-A-Video 能够获得时序稳定且光照一致的重打光视频。
高质量、时间连贯的重光照效果
为了验证 Light-A-Video 的有效性,研究团队基于 DAVIS 和 Pixabay 公开数据集上构建了其测试数据集。实验结果表明,Light-A-Video 在多个评估指标上均优于现有的基准方法,尤其在动作保留方面,该方法在保证原视频外观内容的基础上实现了高质量的重打光效果。
另外,Light-A-Video 能够在仅提供前景序列的情况下,实现背景生成和重打光的并行处理。
未来展望:动态光照与更广泛应用
之后,Light-A-Video 将致力于有效地处理动态光照条件,进一步提升视频重打光的灵活性与适应性。这一创新技术的出现,已然为视频编辑领域注入了全新思路。随着技术的持续发展与优化,我们有理由相信,Light-A-Video 必将在更广泛的领域大放异彩,为视频内容创作开辟更多可能性。