文章地址:https:arxiv.orgpdf2504.02312图1:OmniCam概述。鉴于内容参考和轨迹引导的不同形式,OmniCam通过相机运动控制生成高质量的视频序列。具体而言,OmniCam集成了内容(如图像或视频)和轨迹(如文本指令或视频中的相机运动)参考的各种组合。这种方法使OmniCam能够准确合成与用户指定输入一致的视频亮点直击提出了OmniCam模型,该模型支持复杂灵活的控制,允许帧级控制,通过多模态实现轨迹控制,并能处理多模态数据。...
文章链接:https:arxiv.orgpdf2504.02261项目链接:https:wonderturbo.github.io从一幅图像开始,用户可以自由调整视角,交互式地控制3D场景的生成,每次交互只需0.72秒亮点直击提出了WonderTurbo,首个实时(推理耗时:0.72秒)的3D场景生成方法,支持用户交互式创建多样化且连贯连接的场景。在几何效率优化方面,提出的StepSplat将前馈范式(feedforwardparadigm)扩展至交互式3D几何表示,可在0.26秒内加速3D场景扩展。此外...
文章链接:https:arxiv.orgpdf2504.00983开源地址:https:haoyiduan.github.ioWorldScore亮点直击提出了首个世界生成基准WorldScore,支持对3D、4D、图像到视频(I2V)和文本到视频(T2V)等多种方法进行统一评估。为基准测试精心构建了一个高质量、多样化的数据集,涵盖不同类别的静态与动态场景,并包含多种视觉风格。提出了WorldScore评估指标,综合衡量世界生成模型的关键性能,包括可控性、质量和动态性。通过对17个开源模...
文章链接:https:arxiv.orgpdf2503.21781项目链接:https:jasper0314huang.github.iovideomagecustomization亮点直击提出了VideoMage,一个统一框架,首次实现了针对多个主体身份及其交互运动的视频概念定制。引入了一种新颖的外观无关运动学习方法,通过改进负分类器自由引导,解耦潜在的运动模式与外观之间的关系。开发了一种时空协作组合方案,以组合获得的多主体和运动LoRA,从而生成所需运动模式下连贯的多主体交互。总结...
文章链接:https:arxiv.orgabs2503.07027项目链接:https:github.comXiaojiuzEasyControl亮点直击提出了EasyControl,一种面向DiT模型的条件生成新范式。EasyControl中,每个条件通过独立的条件分支进行处理,该分支通过条件注入LoRA模块从预训练DiT模型适配而来。此设计实现了与定制模型的无缝集成,支持灵活的条件注入与多条件高效融合。高效性:框架通过两项关键创新实现高效计算。位置感知训练范式将输入条件标准化为固定分...
文章链接:https:arxiv.orgpdf2503.10634项目链接:immortalco.github.ioV2Edit亮点直击V2Edit,一个简单但多功能的框架,用于无需训练的指令引导视频和3D场景编辑。引入了协同机制,系统地控制视频扩散中的去噪过程,并支持渐进式编辑,有效平衡原始视频内容的保留与编辑指令的完成,所有功能都集成在一个统一的框架中,适用于多种编辑任务。V2Edit在各种视频和3D场景编辑任务中始终如一地实现了高质量、成功的编辑,包括现有...
文章链接:https:arxiv.orgpdf2503.06568代码链接:https:github.comQYH00Conceptrol亮点直击发现了zeroshotadapters中的一个关键设计缺陷,表明忽略文本概念会导致参考图像中的注意力分配错误。发现基础模型中的特定模块可以提供文本概念掩码,精确指示相应文本概念的空间位置。提出了一种简单但有效的方法,称为Conceptrol。通过提取文本概念掩码,并利用它来增加视觉规范在个性化目标正确区域的注意力分数,同时抑制对无关区...
2025-03-25 10:29:30 541浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2503.12885项目链接:https:limuloo.github.ioDreamRenderer亮点直击DreamRenderer,一种无需训练的方法,使用户能够在深度条件或边缘条件生成中控制每个区域和实例的生成内容。引入了一种新颖的HardTextAttributeBinding(硬文本属性绑定)技术,确保文本嵌入在联合注意力过程中绑定正确的视觉属性。针对多实例生成,首次深入分析了FLUX模型中每一层的隐空间功能,明确了哪些层处理全局操作,哪些...
2025-03-24 12:32:43 640浏览 0点赞 0回复 0收藏
论文全文:https:arxiv.orgabs2503.14501项目主页:https:github.comMiaoQiaoweiAwesome4D4D生成:AIGC领域的新革命!扩散模型已经在2D、视频乃至3D内容生成方面取得了巨大成功,而现在,研究人员的目光已转向4D生成,通过多样化的控制条件生成时空一致性4D资产。让用户可以身临其境创造、操控自己的4D世界,体验如电影《头号玩家》中描绘的沉浸式元宇宙!本文全面综述了4D生成领域,系统性地总结了其基础技术、发展脉络、面临...
2025-03-24 12:21:52 618浏览 0点赞 0回复 0收藏
近日,英伟达发布NVIDIAIsaacGR00TN1。在人工智能与机器人技术的交汇处,NVIDIAIsaacGR00TN1的诞生标志着人形机器人领域的一次重大突破。作为全球首个开放的通用人形机器人推理与技能基础模型,GR00TN1不仅能够处理包括语言和图像在内的多模态输入,还能在多样化的环境中执行复杂的操控任务。这一模型的训练基于庞大的人形机器人数据集,结合了真实捕捉数据、合成数据以及互联网规模的视频数据,使其具备了强大的适应性和可定制...
2025-03-21 11:17:29 1267浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2503.12165项目链接:https:scnuhealthy.github.ioVTON360亮点直击一种新颖的3D虚拟试衣(VTON)方法,即VTON360,能够从任意视角实现高保真度的虚拟试衣。利用3D模型与其渲染的多视角2D图像之间的等价性,将3DVTON重新定义为2DVTON的扩展,确保多视角下的一致性结果。具体而言,引入了多项新技术,包括:(i)伪3D姿态表示;(ii)多视角空间注意力机制;以及(iii)多视角CLIP嵌入。这些创新增强...
2025-03-21 11:09:55 906浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2503.08677项目链接:https:www.yongshengyu.comOmniPaintPagegit链接:https:github.comyeatesOmniPaint亮点直击提出了一种基于扩散的解决方案,用于在对象移除和插入时实现物理和几何一致性,包括阴影和反射等物理效果。引入了一种渐进的训练流程,其中提出的CycleFlow技术支持无配对的后期训练,减少了对配对数据的依赖。进一步开发了一种新颖的无参考指标,称为CFD,用于通过幻觉检测和上下文...
2025-03-20 10:49:56 793浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2503.13434项目链接:https:liyaoweistu.github.ioprojectBlobCtrl亮点直击BlobCtrl,一个新颖的统一框架,首次通过元素级生成和编辑实现了对视觉元素的精确和灵活操控,同时有效保留了其内在特性。设计了一种创新的双分支架构,结合精心设计的训练范式和策略,在保持外观保真度和实现视觉操控中的创意多样性之间达到了最佳平衡。引入了BlobData,这是一个专门为训练元素级视觉模型而策划的大规模数...
2025-03-19 11:54:26 784浏览 0点赞 0回复 0收藏
、文章链接:https:arxiv.orgpdf2503.10743亮点直击与现有方法仅在笛卡尔空间中优化末端执行器姿态不同,提出了一种新颖的时空机器人图,显式地建模机器人物理配置,以指导生成动作的去噪过程。引入了一种运动学正则化器,通过引入关节空间监督来增强NBP(NextBestPose)学习目标。该正则化器利用前向运动学提供符合运动学约束的参考姿态,有效引导扩散过程以符合运动学约束。大量实验表明,本文提出的KStarDiffuser在仿真和实...
2025-03-18 11:12:48 839浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2503.04641亮点直击首次统一2D、视频、3D和4D生成研究的综述,为该研究领域提供了结构化和全面的概述。从数据维度增长的角度,通过多模态生成模型的视角,系统性地回顾了现实世界模拟的方法。从多个角度调查了常用数据集、其特性以及相应的评估指标。它指出了开放的研究挑战,旨在为该领域的进一步探索提供指导。理解并复现现实世界是通用人工智能(AGI)研究中的一个关键挑战。为实现这一目标,许...
2025-03-17 10:15:57 923浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2503.05236项目链接:https:codegoat24.github.ioUnifiedRewardGithub链接:https:github.comCodeGoat24UnifiedRewardHuggingface链接:https:huggingface.copapers2503.05236Models链接:https:huggingface.cocollectionsCodeGoat24unifiedrewardmodels67c3008148c3a380d15ac63aDatasets链接:https:huggingface.cocollectionsCodeGoat24unifiedrewardtrainingdata67c300d4fd5eff00fa7f1ede亮点直击构...
2025-03-17 10:00:24 818浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2503.07598项目链接:https:alivilab.github.ioVACEPage亮点直击统一框架:VACE是首个基于视频DiT架构的全能模型,支持广泛的视频生成与编辑任务。概念解耦与上下文适配器:通过概念解耦策略和上下文适配器结构,实现了对编辑和参考任务的自适应处理。多功能与高效性:VACE框架不仅减少了服务部署和用户交互的成本,还通过任务组合扩展,提供了多功能和高效的视频合成解决方案。创新性与竞争力:在...
2025-03-14 13:37:33 1876浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2503.05639项目链接:https:yxbian23.github.ioprojectvideopaintergit链接:https:github.comTencentARCVideoPainter亮点直击提出了VideoPainter,首个支持即插即用背景控制的双分支视频修复框架。设计了一个轻量级上下文编码器,用于高效且密集的背景控制,并引入了修复区域ID重采样技术,以在任意长度的视频修复和编辑中保持ID一致性。推出了VPData,这是最大的视频修复数据集,包含超过390K个...
2025-03-13 10:42:06 917浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2503.03751git链接:https:research.nvidia.comlabstorontoaiGEN3C亮点直击提出了GEN3C,一种具有精确相机控制的世界一致性视频生成模型。通过对输入图像或先前生成的视频帧的深度估计进行反投影,构建了一个以点云表示的3D缓存。借助用户提供的相机轨迹,渲染3D缓存,并将渲染出的视频用作视频模型的条件输入。对模型在不同输入条件下的视频生成任务进行了广泛评估,从单一图像到稀疏和密集的多视...
2025-03-12 10:35:12 1292浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.18461项目链接:https:klora.github.ioKLoRA.io亮点直击提出了KLoRA,一种简单而有效的优化技术,能够无缝融合内容和风格LoRA,从而在保留细节的同时生成任何主题的任意风格。本文的方法用户友好,无需重新训练,可直接应用于现有的LoRA权重。它在多样化的图像风格化任务中表现出色,超越了现有方法。总结速览解决的问题风格与内容的同时保留:现有方法在融合不同LoRA(LowRankAdaptation)时...
2025-03-11 10:03:15 1298浏览 0点赞 0回复 0收藏