论文链接:https:arxiv.orgpdf2501.09503项目链接:https:aigcdesigngroup.github.ioAnyStory亮点直击提出了一种统一的单主体和多主体个性化框架,称为AnyStory。该框架在个性化单主体和多主体时实现了一致性,同时遵循文本提示;引入了一种增强的主体表示编码器,由简化的轻量级ReferenceNet和CLIP视觉编码器组成,能够对一般主体进行高保真细节编码;提出了一种解耦的实例感知router模块,能够准确感知和预测主体的隐空间条件...
文章链接:https:arxiv.orgpdf2412.04449项目链接:https:github.comMCGNJUpMoD亮点直击MoD机制的引入:通过选择性处理重要视觉token,显著减少计算负担,提升模型效率。创新的TanhNorm与STRing设计:解决了MoD模块在多模态训练中的稳定性和性能问题,即使在有限数据下也能精准评估token的重要性。PRD策略:通过逐层减少保留token的比例,针对视觉token的冗余问题提供了有效的解决方案,大幅提高计算效率。全面的实验验证:在多...
文章链接:https:arxiv.orgpdf2501.05131项目链接:https:limuloo.github.io3DIS亮点直击3DIS的创新:通过深度驱动的解耦生成框架,大大降低了对计算资源的需求,并解决了适配器方法的重新训练问题。FLUX的集成:3DISFLUX利用FLUX模型提升了渲染质量和控制能力,超越了传统的UNet架构。训练free细节渲染:通过细致控制FLUX模型中的Attention机制,成功实现了对每个实例细节的精确渲染,避免了额外的训练负担。性能与质量双重提...
文章链接:https:arxiv.orgpdf2501.06187项目链接:https:snapresearch.github.ioopensetvideopersonalization亮点直击提出了VideoAlchemist,这是一种支持前景对象和背景的多主体、开放集合个性化的新型视频生成模型。精心构建了大规模训练数据集,并引入训练技术以降低模型过拟合。引入了MSRVTTPersonalization,这是一种新的视频个性化基准,提供多种条件模式并能准确测量主体保真度。总结速览解决的问题现有视频个性化生成...
文章链接:https:arxiv.orgpdf2412.17812项目链接:https:www.wlyu.meFaceLift亮点直击本文提出了FaceLift,这是一种两阶段框架,通过视图生成和大规模重建模型从单张图像重建高保真3D头像。结合了用于视图一致性训练的合成头部数据和大型图像生成基础模型的丰富先验,从而实现了强大的泛化能力。通过全面的定量和定性评估,证明了本文的方法在重建精度和身份保持方面达到了SOTA。总结速览解决的问题当前的3D头像重建方法存在以...
论文链接:https:arxiv.orgpdf2412.21117git链接:https:freemty.github.ioprojectprometheus亮点直击Prometheus,这是一种面向文本到3D生成的3D感知隐空间扩散模型,适用于对象和场景级别。按照标准的隐空间扩散范式,将训练分为两个不同的阶段。在第一阶段,训练一个3D高斯变分自编码器(GSVAE),它以多视角或单视角RGBD图像为输入,预测每个像素对齐的3D高斯。在第二阶段,训练一个多视角LDM,联合预测多视角RGBD隐空间code...
文章链接:https:arxiv.orgpdf2501.01957git链接:https:github.comVITAMLLMVITA亮点直击VITA1.5,一种多模态大语言模型(LLM),通过精心设计的三阶段训练方法整合了视觉、语言和语音。该训练策略逐步引入视觉和语音数据,缓解了模态冲突,同时保持了强大的多模态性能。对图像、视频和语音理解相关的各类基准进行了广泛评估,并将结果与开源和专有模型进行了比较。VITA1.5展现了与领先的基于图像视频的多模态大语言模型(MLLMs...
文章链接:https:arxiv.orgpdf2501.05020项目链接:https:chenyingjie.github.ioprojectsPerceptionasControl亮点直击引入了3D感知运动表示,以促进精细化的协同运动控制,该表示可以被修改和感知,从而将用户意图转化为空间对齐的运动控制信号。基于3D感知运动表示,提出了一种精细化运动可控的图像动画框架,即PerceptionasControl,利用扩散模型实现精确且灵活的协同运动控制。该框架通过对用户意图的解析,可以支持多种与运...
文章链接:https:arxiv.orgpdf2501.03931项目链接:https:julianjuaner.github.ioprojectsMagicMirror亮点直击提出了MagicMirror,这是一种无需微调的新型框架,用于生成身份一致性的视频;设计了一种轻量级适配器,结合条件自适应归一化,实现面部嵌入在全注意力扩散Transformer架构中的有效融合;开发了一种数据集构建方法,通过合成数据生成和渐进式训练策略相结合,解决个性化视频生成中的数据稀缺问题。效果速览总结速览解...
2025-01-10 08:40:51 372浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2412.19761项目链接:https:genprop.github.io亮点直击定义了一个新的生成视频传播问题,目标是利用I2V模型的生成能力,将视频第一帧的各种变化传播到整个视频中。精心设计了模型GenProp,包含选择性内容编码器(SelectiveContentEncoder,SCE)、专用损失函数以及mask预测头,并提出了一个用于训练模型的合成数据生成pipeline。本文的模型支持多种下游应用,如移除、插入、替换、编辑和跟踪。实验...
2025-01-09 11:29:44 360浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2412.21079项目链接:https:ezioby.github.ioedicho亮点直击显式对应性引导一致性编辑:通过将显式图像对应性融入扩散模型的去噪过程,改进自注意力机制与分类器自由引导(CFG),在保持高质量的同时显著提升编辑一致性。融合无条件嵌入特征:受NULLtextInversion技术启发,提出融合无条件嵌入特征的方法,进一步增强一致性效果,实现更精细的编辑控制。广泛适用性与优越性能:方法具有免训练和即...
2025-01-08 11:50:05 364浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2412.20404项目链接:https:github.comhpcaitechOpenSora总结速览解决的问题人工视觉智能,特别是生成和模拟我们所见世界的能力,相较于语言能力的突破仍然滞后。现有视频生成模型在高保真视频内容生成、灵活视频合成及长时间视频生成方面面临诸多挑战。提出的方案本文引入OpenSora,一个开源的视频生成模型,支持文本生成图像、文本生成视频以及图像生成视频等多种视觉生成任务。通过空间时间扩散...
2025-01-06 09:55:07 1091浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2412.20800代码地址:https:github.comfenfenfenfanVMix项目地址:https:vmixdiffusion.github.ioVMix亮点直击分析并探索现有模型在光影、色彩等细粒度美学维度上生成图像的差异,提出在文本提示中解耦这些属性,并构建一个细粒度的美学标签体系,提供清晰的模型优化方向;提出VMix条件注入方法,它将输入文本提示解耦为内容描述和美学描述,通过值混合交叉注意力的条件控制方法,从不同维度提升模...
2025-01-06 09:34:54 268浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2412.19806项目链接:https:vitronllm.github.ioGithub链接:https:github.comSkyworkAIVitron亮点直击首次提出了一种通用的视觉多模态大语言模型(MLLM)——VITRON,能够在像素级对图像和视频进行理解、生成、分割和编辑。引入了一种更高效的LLM到解码器的指令传递机制,结合了离散文本和连续信号嵌入。提出了针对多模态大语言模型的像素级视觉语言时空对齐学习,使其能够达到最优的细粒度视觉能...
2025-01-02 13:45:31 922浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2412.18653项目链接:https:chenglinyang.github.io1.58bit.flux.github.iogit主页:https:github.comChenglinYang亮点分析1.58bitFLUX,第一个将FLUX视觉Transformer的参数(共119亿)减少99.5%至1.58bit的量化模型,无需依赖图像数据,大幅降低存储需求。开发了一个高效的线性内核,针对1.58bit计算进行了优化,实现了显著的内存减少和推理加速。证明了1.58bitFLUX在具有挑战性的T2I基准测试中,...
2024-12-31 07:56:07 620浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgabs2406.03520项目链接:https:github.comHritikbansalvideophy总结速览解决的问题随着互联网规模的视频数据预训练的进展,文本生成视频(T2V)模型能够生成高质量的视频,涵盖各种视觉概念、合成逼真的动作以及渲染复杂的物体。然而,目前的T2V模型在生成的视频中缺乏物理常识,尤其是在模拟真实世界活动时,无法准确遵循物理法则。尽管已有一些评估视频质量的方法(如VBench),但这些方法并未特别...
2024-12-30 10:24:33 532浏览 0点赞 0回复 1收藏
文章链接:https:arxiv.orgpdf2412.18608项目链接:https:silentchen.github.ioPartGen总结速览解决的问题当前的3D生成与扫描技术能够生成具有高质量形状和纹理的3D资产,但这些资产通常是单一的、不具备结构的整体表示(如隐式神经场、高斯混合体或网格)。然而,专业应用与创意工作流中需要结构化的3D资产,这些资产由具有独立意义的部分组成,便于重用、编辑与动画制作。提出的方案本文提出了PartGen,能够将无结构的3D对...
2024-12-30 10:14:31 319浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2412.18597项目链接:https:github.comTencentARCDiTCtrl亮点直击DiTCtrl,这是一种基于MMDiT架构的、首次无需调优的多提示视频生成方法。本文的方法结合了新颖的KV共享机制和隐混合策略,使得不同提示之间能够无缝过渡,且无需额外的训练。首度分析了MMDiT的注意力机制,发现其3D全注意力与UNetlike扩散模型中的交叉自注意力块具有相似的行为,从而实现了基于mask的精确语义控制,使得不同提示之...
2024-12-27 09:37:24 1043浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2412.13195git链接:https:github.comblurgyyCoMPaSS亮点直击一个综合的训练框架CoMPaSS,显著增强了T2I扩散模型的空间理解能力。一个系统化的数据引擎SCOP,通过施加原则性约束来识别和验证图像中对象对之间明确的空间关系,从而能够策划高质量的空间训练数据。一个无参数模块TENOR,进一步提高了任何架构的T2I扩散模型的空间理解能力,同时增加的计算开销可以忽略不计。总结速览解决的问题文本到图...
2024-12-26 09:40:34 401浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2412.17098Github链接:https:zjbinxia.github.ioDreamOmniProjectPage亮点直击对现有的模型框架进行了分析,并基于不同任务的特点,提出了一种高效且强大的统一图像生成与编辑框架——DreamOmni。引入了一种合成拼贴数据pipeline,用以解决当前创建和筛选高质量编辑数据的低效性和困难。此外,还利用该合成拼贴数据pipeline来提高T2I模型输出的准确性。实验结果表明,合成数据是一种高效、优质且...
2024-12-25 09:21:59 434浏览 0点赞 0回复 0收藏