Adobe推出超分辨率，细节丰富视频模型VideoGigaGAN

Aceryt

发布于 2024-6-4 11:56

浏览

0收藏

视频超分辨率是计算机视觉领域一个非常有难度的课题，主要是将低分辨率的视频转换为高分辨率。在转换的过程中，会面临着两大难题。

第一个是保持输出视频帧在时间上的连贯性，确保帧到帧之间平滑过渡，不出现闪烁或抖动的情况；第二个则是要在放大的视频帧中重建高频细节，以提供清晰和逼真的纹理效果。

虽然目前很多超分辨率视频模型在保持时间连贯性方面取得了显著进展，但是以牺牲图像清晰度为代价，整体看起来非常模糊缺乏更加生动的细节和纹理。

因此，全球多媒体巨头Adobe和马里兰大学的研究人员推出了VideoGigaGAN，这是一个兼顾帧率连贯性和丰富细节的超分辨率视频模型。

论文地址：https://arxiv.org/abs/2404.12388

Adobe推出超分辨率，细节丰富视频模型VideoGigaGAN-AI.x社区

VideoGigaGAN是基于Adobe、卡内基梅隆大学和浦项科技大学之前推出的，大规模图像超分辨率模型GigaGAN的基础之上开发而成。GigaGAN经过数十亿张图像的训练,能够在8倍放大的情况下，依然生成逼真细腻的高分辨率图像。

但直接将GigaGAN应用在每个低分辨率视频帧，会导致严重的时间抖动和混叠伪影。为了解决这个问题，研究人员对GigaGAN模型进行了创新。

Adobe推出超分辨率，细节丰富视频模型VideoGigaGAN-AI.x社区

通过添加时序卷积和自注意力层,将GigaGAN从2D图像模型扩展为3D视频模型,同时引入了光流引导模块,更好地对齐不同帧的特征，提高视频的时间一致性和细节丰富性。

时序卷积和自注意力层

时序卷积是一种用于处理时间序列数据的卷积操作，主要用于提取时间序列数据中的特征。

在视频超分辨率的上下文中，时序卷积模块使模型能够捕捉视频帧之间的时间依赖性，从而提高超分辨率视频的时间一致性。

与传统的空间卷积不同的是，时序卷积考虑了时间维度的关系，并在卷积过程中引入时间上的权重。这样可以使得生成的每一帧都受到相邻帧的影响，从而保持了视频序列的时序一致性。

Adobe推出超分辨率，细节丰富视频模型VideoGigaGAN-AI.x社区

在VideoGigaGAN模型中，时序卷积层被放置在解码器块中，紧随空间自注意力层之后。

这种设计允许模型首先在空间维度上提炼特征，然后在时间维度上进一步加工这些特征。通过这种方式，使模型能够更好地理解视频中的时间动态，例如，运动、变形、切换场景等。

为了更好地捕获视频的细节、纹理以及重建超分辨率，VideoGigaGAN使用了自注意力层与时序卷积一起协同工作。

Adobe推出超分辨率，细节丰富视频模型VideoGigaGAN-AI.x社区

在解码器块的空间自注意力层中，会计算每个空间位置对当前位置的影响，从而捕捉空间上的细节和纹理信息。然后在时间自注意力层中，计算序列中每个时间步对当前时间步的影响，进一步增强时间的一致性。

光流引导

光流是描述图像中物体运动的向量场，可以捕捉和预测视频帧之间的像素级运动，是计算机视觉中用于估计场景动态信息的重要技术。光流不仅能够提供物体运动的信息，还能够揭示场景的3D结构。

VideoGigaGAN会先使用一个光流估计器来预测，输入低分辨率视频的双向光流图。这些光流图描述了视频帧中每个像素点的运动向量。

Adobe推出超分辨率，细节丰富视频模型VideoGigaGAN-AI.x社区

然后通过一个双向循环神经网络来处理光流图和原始帧像素，学习时间感知的特征，并能够处理长序列数据，捕捉长期依赖关系。

最后，通过一个反向变形层，将学习到的特征根据预先计算的光流显式地变形。这一流程确保了在超分辨率过程中，即使在物体快速运动的情况下，也能够保持特征的空间一致性。

在光流引导的帮助下，使得VideoGigaGAN模型能够更准确地估计物体的运动轨迹，并在超分辨率过程中保留更多的高频细节，从而生成清晰的超分辨率视频。

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/9kkWGUojt_E0zVO8okk9rg

标签

模型

神经网络

相关推荐

谷歌推出多模态视频模型，自动生成丰富动作视频

Aceryt • 2940浏览 • 0回复
无需训练，这个新方法实现了生成图像尺寸、分辨率自由

轻薄滴假象 • 2166浏览 • 0回复
超10秒高分辨率，北大Open Sora视频生成更强了，还支持华为芯片

轻薄滴假象 • 2227浏览 • 0回复
8倍于SOTA模型发布，超分辨率细节还原度逆天，终于可以看清楚蜘蛛网丝了！

51CTO技术栈 • 3352浏览 • 0回复
高分辨率图像生成扩散外推方法CutDiffusion发布！

angel • 3721浏览 • 0回复
谷歌推出V2A，可为视频大模型自动匹配语音

Aceryt • 3287浏览 • 0回复
4K4D:实时4K分辨率4D视图合成

angel • 2251浏览 • 0回复
华科、华南理工发布Mini-Monkey，专治「切分增大分辨率」后遗症

duhorse • 1735浏览 • 0回复
上海交大等联合发布MegaFusion：无须微调的高效高分辨率图像生成方法

angel • 2252浏览 • 0回复
新视角生成和高分辨率生成双SOTA(复旦&智象等)

angel • 2190浏览 • 0回复
苹果开源高清扩散模型MDM，能在多个分辨率下同时去噪

Aceryt • 1853浏览 • 0回复
苹果重磅开源俄罗斯套娃扩散模型！MDM：多任务高分辨率生成又快又好！

angel • 1753浏览 • 0回复
微软即将推出超强RAG: LazyGraphRAG 效果更好，且成本能降低近1000倍！

AI博物院 • 3622浏览 • 0回复
FreeScale让扩散模型解锁更高分辨率！

angel • 1844浏览 • 0回复
文字秒变视频，附技术细节

云原生AI百宝箱 • 1716浏览 • 0回复
视频编辑最新SOTA！港中文&Adobe等发布统一视频生成传播框架——GenProp

angel • 1531浏览 • 0回复
从低清到4K的魔法：FlashVideo突破高分辨率视频生成计算瓶颈(港大&港中文&字节)

angel • 1429浏览 • 0回复
高分辨率3D人生成超简单!Pippo:Meta最新工作首次完成1K分辨率一致多视角人物图像生成

angel • 1668浏览 • 0回复
计算效率提高4000倍，首次实现高分辨率逐像素生成

Crystalcxt • 1252浏览 • 0回复

xuxiangda

LV.5

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

帖子

817

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

Adobe推出超分辨率，细节丰富视频模型VideoGigaGAN