文章链接:https:arxiv.orgpdf2412.11974代码链接:https:github.comdeclarelabEmmaXHuggingface链接:https:huggingface.codeclarelabEmmaX亮点直击提出了一个具有70亿参数的具身多模态动作模型EMMAX,通过在有根据的链式思维(CoT)推理数据上微调OpenVLA创建而成。通过合成构建了一个层次化的具身数据集,该数据集来自现有的机器人操作数据集,包含了3D空间运动、2D夹爪位置和有根据的推理。提出了一种新颖的轨迹分割策略,...
文章链接:https:arxiv.orgpdf2412.10316项目链接:https:liyaoweistu.github.ioprojectBrushEdit亮点直击提出了BrushEdit,这是先前BrushNet模型的高级迭代版本。BrushEdit通过开创基于修复(inpainting)的图像编辑方法,扩展了可控图像生成的能力。该统一模型支持指令引导的图像编辑和修复,提供了用户友好的、自由形式的、多轮交互编辑体验。通过集成现有的预训练多模态大语言模型和视觉理解模型,BrushEdit显著提高了语言...
文章链接:https:arxiv.orgpdf2412.09626项目链接:http:haonanqiu.comprojectsFreeScale.html亮点直击提出了FreeScale,一种无需微调的推理范式,通过融合不同尺度的信息,使预训练的扩散模型能够生成生动的高分辨率结果。在文本生成图像模型和文本生成视频模型上对该方法进行了实证评估,证明了其有效性。首次实现了8K分辨率图像的生成。与其他最新的无需微调方法相比,FreeScale以更少的推理时间获得了更高质量的视觉效果。...
论文链接:https:arxiv.orgpdf2412.01064github链接:https:deepbrainairesearch.github.iofloat亮点直击FLOAT,这是一种基于流匹配的音频驱动说话者头像生成模型,利用了学习的运动隐空间,比基于像素的隐空间更高效和有效。引入了一种简单而有效的基于Transformer的流向量场预测器,用于时间一致的运动隐空间采样,这也使得语音驱动的情感控制成为可能。大量实验表明,与基于扩散和非扩散的方法相比,FLOAT达到了最先进的性能...
2024-12-12 14:46:57 373浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2412.06673亮点分析本文提出了ILLUME,这是一种统一的多模态大语言模型(MLLM),能够在单一的大语言模型(LLM)中无缝整合视觉理解与生成功能,并通过语义视觉分词器和三阶段训练流程实现高效训练。为了促进理解与生成能力的协同增强,本文提出了一种新颖的自增强多模态对齐机制,该机制训练MLLM自行评估文本描述与自生成图像之间的一致性。ILLUME在现有的统一多模态大语言模型中表现出色,并在多...
2024-12-11 13:12:10 355浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2412.02692github链接:https:github.comTencentARCSEEDVoken亮点直击提出了一种简单而有效的向量量化方法,称为索引反向传播量化(IndexBackpropagationQuantization,IBQ),用于训练可扩展的视觉分词器。通过增加码本大小、编码维度和模型规模来研究IBQ的扩展特性。IBQ首次训练了一个超大码本(),具有大维度(256)和高使用率,实现了最先进的重建性能。展示了一系列从300M到2.1B的基础自回归...
2024-12-10 14:52:10 366浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2412.04468动机视觉语言模型(VLMs)在处理和融合视觉与文本信息方面表现出了卓越的能力,推动了先进的视觉语言交互和对话系统的发展。近年来,研究界在提高VLMs的准确性方面取得了巨大的进展,并拓展了它们在各个领域的应用,包括机器人技术、自动驾驶和医学影像。然而,提升其效率的研究却相对较少。VLMs在多个方面都是高成本的。首先,训练VLM非常耗时。例如,训练一个最先进的7B参数VLM可能需...
2024-12-09 10:10:54 362浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgabs2411.07132GitHub链接:https:github.comhutaiHangToMe亮点直击分析了语义绑定问题,重点讨论了[EOT]token的作用,以及跨注意力图错位的问题。此外,探索了token可加性作为一种可能的解决方案。提出了一种无训练方法——token合并,简称ToMe,作为一种更高效且稳健的语义绑定解决方案。通过引入提出的结束token替代和迭代复合token更新技术,ToMe得到了进一步增强。在广泛使用的T2ICompBench基准和...
2024-12-09 10:04:18 366浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgabs2411.17440项目链接:https:pkuyuangroup.github.ioConsisID亮点直击提出了ConsisID,一个基于DiT的免调优(tuningfree)身份保持IPT2V模型,通过频率分解的控制信号来保持视频主角的身份一致性。提出了一种分层训练策略,包括粗到细的训练过程、动态Mask损失(dynamicmaskloss)以及动态跨脸损失(dynamiccrossfaceloss),共同促进模型训练并有效提升泛化能力。大量实验表明,受益于我们的频率感知...
2024-12-06 09:58:35 347浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2412.01243亮点直击提出了时间预测扩散模型(TPDM),该模型可以在推理过程中自适应地调整噪声调度,实现图像质量和模型效率之间的平衡。为了训练TPDM,通过强化学习最大化图像质量,并根据去噪步骤数折扣,直接优化最终的性能和效率。模型在多个评估基准上表现优越,在减少推理步数的同时取得了更好的结果。总览全文扩散模型和流模型在文本到图像生成等多种应用中取得了显著成功。然而,这些模型...
2024-12-04 11:03:13 441浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2411.18623项目链接:https:lift3dweb.github.io亮点直击提出了Lift3D,通过系统地提升隐式和显式的3D机器人表示,提升2D基础模型,构建一个3D操作策略。对于隐式3D机器人表示,设计了一个任务感知的MAE(MaskedAutoencoder),它掩盖了任务相关的可操作性区域,并重建了深度几何信息,从而增强了2D基础模型的3D空间感知能力。对于显式3D机器人表示,提出了一种2D模型提升策略,利用2D基础模型的预...
2024-12-03 10:05:15 514浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2411.02359项目链接:https:github.comyueyang130DeeRVLA亮点直击提出动态早退出机制DeeR:框架基于动态神经网络的思想,能自动调整MLLM模型的大小,根据机器人面临的实际情况动态激活模型所需的层数,减少不必要的计算消耗。实现高效的资源利用:DeeR在推理过程中对不同复杂度的情境适应性地分配计算资源,简单场景下使用较小的模型以节省资源,复杂场景下则调用更大的模型。灵活的计算成本控制:...
2024-12-02 13:27:26 441浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2411.15138亮点直击提出了一种完全自动化、稳定且通用的模型,用于为多种3D对象生成物理材料,并达到了最先进性能水平。提出了一种具有光照置信度的材料扩散模型,以便用一个模型处理各种光照条件。提出了一种由置信度mask引导的渐进材料生成方案,以及一种UV空间材料扩散模型,以生成一致且UV就绪的材料。总结速览解决的问题现有的3D对象材料生成方法通常依赖复杂的流程或特定案例的优化,难以在...
2024-12-02 12:21:43 510浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2411.18616项目链接:https:primecai.github.iodsd亮点直击提出了DiffusionSelfDistillation,一种zeroshot身份保持定制图像生成模型,能够在任何上下文下扩展到任意实例,其性能与推理阶段调优方法相当;提供了一条自蒸馏pipeline,利用预训练的文本到图像扩散模型、LLMs和VLMs,完全不依赖人工参与,获取身份保持的数据配对,用于整个数据创建过程;设计了一个统一的架构,用于处理涉及身份和结...
2024-11-29 10:08:20 568浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2411.15034项目链接:https:yucigpt.github.ioheadrouter亮点直击提供了对不同注意力头对各种编辑语义的影响的深入分析,以及在无交叉注意力的MMDiTs中,文本和图像token之间的相互作用。提出了HeadRouter,这是一种适用于MMDiTs的新型图像编辑方法,其中包括一个实例自适应Router,用于增强关键注意力头的语义表示,以及一个双重token优化模块,用于精确的文本引导和关键区域表达。在多个文本引导...
2024-11-28 09:48:00 366浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2411.16318项目链接:https:github.comlehduongOneDiffusion亮点直击统一的多任务能力:OneDiffusion提出了一个统一的扩散模型,能够无缝支持图像合成和理解的双向任务。它通过简单灵活的框架,实现了多种任务(如文本到图像生成、深度估计、多视角生成等)的处理,而无需依赖外部模块或额外损失函数。创新的训练方法:OneDiffusion采用了基于序列数据的训练方法,将所有任务视为不同噪声级别的帧...
2024-11-27 10:05:47 669浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2411.13552项目链接:https:github.commicrosoftReducioVAE亮点直击将视频编码为极少量的运动隐变量和一个内容图像,其中设计的ReducioVAE可以将视频压缩到比常见的二维VAE小64倍的隐变量空间。基于ReducioVAE,通过结合额外的图像条件设计了一个名为ReducioDiT的扩散模型。实验表明,ReducioDiT可以显著加速生成过程,同时生成高质量的视频。总结速览解决的问题商用视频生成模型虽然能生成逼真的...
2024-11-26 10:19:43 346浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2411.07076数据集&代码:https:github.comhyc2026StoryTeller亮点直击引入音画角色识别任务:提出了音画角色识别任务,通过整合视觉、音频和文本信息,实现对白与角色的精准匹配,从而解决长视频描述中的一致性挑战,包括角色描述和故事逻辑连贯性。StoryTeller系统创新:开发了StoryTeller系统,包含视频分割模块、音画角色识别模块和身份感知的描述生成模块,生成密集且一致性高的长视频描述,兼...
2024-11-25 10:32:47 408浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2411.04928项目链接:https:chenshuo20.github.ioDimensionX亮点直击提出了DimensionX框架,通过可控的视频扩散技术,仅使用单张图像生成逼真的3D和4D场景。提出了STDirector,通过学习(空间和时间)维度感知模块,并结合我们精心挑选的数据集,解耦视频扩散模型中的空间和时间先验。进一步通过基于视频扩散去噪过程本质的训练无关组合方法,增强了混合维度控制。为了弥合视频扩散与真实场景之间...
2024-11-25 10:27:50 815浏览 0点赞 0回复 0收藏
前言大家好,我是Alonzo。随着OpenAI在今年年初公布了Sora的demo,videogenerationediting的工作呈现出井喷式发展的趋势,同时,我们课题组也在积极地进行许多探索。今天,很高兴能跟大家分享我们课题组的最新研究成果——StableV2V——一个专注于「人机交互一致性」的视频编辑方法。在开始详细介绍StableV2V的具体工作之前,我们已经将我们的代码、模型、权重开源,欢迎大家来我们的项目仓库提issues或PR~关于StableV2V的具体...
2024-11-22 10:42:34 344浏览 0点赞 0回复 0收藏