angel
LV.8
这个用户很懒,还没有个人简介
声望 2726
关注 0
粉丝 7
私信
主帖 290
回帖
论文链接:https:arxiv.orgpdf2502.20235项目链接:https:xugao97.github.ioAttentionDistillation亮点直击分析了之前即插即用注意力特征方法的局限性,并提出了一种新颖的注意力蒸馏损失,用于重现参考图像的视觉特征,取得了显著优越的结果。开发了attentiondistillation引导采样,这是一种改进的分类器引导方法,将注意力蒸馏损失整合到去噪过程中,大大加快了合成速度,并支持广泛的视觉特征转移和合成应用。生成效果一览给...
10h前 162浏览 0点赞 0回复 0收藏
论文:https:arxiv.orgpdf2502.09621主页:https:mmecot.github.io代码:https:github.comCaraJ7MMECoT数据集:https:huggingface.codatasetsCaraJMMECoT亮点直击精心策划了MMECoT基准,涵盖了六种多模态推理场景的综合范围。数据收集和标注过程经过严格的人为验证,旨在为社区提供高质量的多模态推理评估数据集。识别了现有基准中的关键问题,并引入了专门针对多模态CoT推理的全面评估套件,该套件仔细检查了推理的质量、鲁棒...
11h前 218浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.17258git链接:https:knightyxp.github.ioVideoGrainprojectpage亮点直击首次尝试多粒度视频编辑的方法。支持类别级、实例级和局部级的编辑。提出了一个新颖的框架,称为VideoGrain,该框架通过调节时空跨注意力和自注意力,实现文本到区域的控制以及区域间特征的分离。在无需调整任何参数的情况下,在现有基准测试和真实世界视频上都取得了定性和定量的最新成果。总结速览解决的问题多粒度视...
3天前 248浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.15894项目链接:https:riflexvideo.github.io亮点直击通过分析现有方法的失败模式并揭示位置嵌入中各个频率成分的作用,提供了对视频长度外推的全面理解。提出了RIFLEx,一种简单而有效的解决方案,通过适当降低内在频率来减少重复,且无需任何额外修改。RIFLEx提供了一种真正的“免费午餐”——在最先进的视频扩散Transformer上以完全无需训练的方式实现高质量的2倍外推。此外,通过少量微调...
4天前 308浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2502.13995项目链接:https:fantasyamap.github.iofantasyid亮点直击首次尝试从单视角参考图像中提取3D面部先验,以增强面部结构的稳定性,从而在整个视频生成过程中有益于身份(ID)保持。通过采用多视角面部增强策略,能够显著增强对广泛视角下2D面部外观的感知,从而有益于与面部表情和头部姿势相关的运动动态。设计了一种可学习的层次化特征引导机制,以促进对身份保持和动态建模的精确控制,...
6天前 235浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.12135Git链接:https:chaoyuesong.github.ioMagicArticulate亮点直击首个大规模关节化基准数据集,包含超过48,000个具有高质量关节标注的模型;一种新颖的两阶段框架,有效处理骨架生成和蒙皮权重预测;实现了当前最先进的性能,并在实际动画生产流程中展现了实用性。总结速览解决的问题随着3D内容创作的快速增长,自动将静态3D模型转换为支持真实动画的可关节化版本的需求日益增加。然而,传...
7天前 430浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.04507Git链接:https:github.comhaoailabFastVideoHuggingface:https:huggingface.coFastVideoFastHunyuan亮点直击识别并量化了最先进的视频DiT中的3D局部性和头部specialization,揭示了完整3D注意力中的大量冗余。引入了SLIDINGTILEATTENTION,一种基于分块的滑动窗口注意力机制。优化内核与FlashAttention3相比实现了最小的开销,MFU达到58.79%。STA将注意力加速超过10倍,并将端到端视频...
2025-02-21 13:11:18 253浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.12150Git链接:https:github.comlocuslabllmidiosyncrasies亮点直击高准确率的模型区分:通过简单的文本嵌入模型微调,实现了高达97.1%的分类准确率,显著高于随机猜测的20.0%。语义保留变换下的强鲁棒性:即使对文本进行重写、翻译或总结等语义保留变换,分类准确率仍保持在90%以上,表明LLM的独特性不仅体现在词汇层面,还体现在语义层面。开放描述生成:利用LLM作为评判者,生成每个模型独...
2025-02-20 10:16:53 487浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgabs2502.10841项目链接:https:skyworkai.github.ioskyreelsa1.github.ioDemo链接:https:www.skyreels.ai开源地址:https:github.comSkyworkAISkyReelsA1、https:github.comSkyworkAISkyReelsV1昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReelsV1、中国首个SOTA级别基于视频基座模型的表情动作可控算法SkyReelsA1。亮点直击提出了SkyReelsA1,一种用于肖像动画的全新框架,采用DiT(扩散Tr...
2025-02-19 09:50:08 858浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.07785项目链接:https:yashkant.github.iopippo亮点直击一种生成模型:能够从单张图像生成高分辨率和多视角一致的人体,并提出了有效的训练策略。一种扩散Transformer架构:专为增强多视角生成和视角控制而设计。一种注意力偏置技术:能够在推理时生成比训练时多5倍以上的视角。一种新颖的3D一致性指标:用于准确衡量生成任务中的3D一致性水平。总结速览解决的问题高质量多视角数据获取成本高...
2025-02-18 12:48:47 316浏览 0点赞 0回复 0收藏
论文地址:https:arxiv.orgpdf2409.04005项目主页:https:360cvgroup.github.ioQihooT2X代码仓库:https:github.com360CVGroupQihooT2X​作者信息:论文一作为来自中山大学的博士生王晶;论文共同一作和项目leader为来自360AIResearch视频生成方向的负责人马傲亮点直击提出了ProxyTokenized扩散transformer(ProxyTokenizedDiffusionTransformer,PTDiT)。推出了QihooT2X系列模型,包括文本到图像(T2I)、文本到视频(T2V)以...
2025-02-17 09:32:32 389浏览 0点赞 0回复 0收藏
本文介绍了多模态大型语言模型(MLLM)的定义、使用挑战性提示的应用场景,以及正在重塑计算机视觉的顶级模型。目录什么是多模态大语言模型(MLLM)?MLLM在计算机视觉中的应用与案例领先的多模态大型语言模型未来展望1.什么是多模态大型语言模型(MLLM)?简单来说,多模态大型语言模型(MLLM)是结合了大型语言模型(LLM)(如GPT3[2]或LLaMA3[3])的推理能力,同时具备接收、理解并输出多种模态信息的能力。示例:图1展示了...
2025-02-17 09:22:56 1439浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.05179项目链接:https:github.comFoundationVisionFlashVideo亮点直击提出了FlashVideo,一种将视频生成解耦为两个目标的方法:提示匹配度和视觉质量。通过在两个阶段分别调整模型规模、分辨率和优化策略,本文的方法相比现有方法实现了更高的效果和效率。通过流匹配(flowmatching)构造了从低质量视频到高质量视频的近乎直线的ODE轨迹,使得视频在仅4次函数评估内即可融入丰富细节。本文的...
2025-02-13 09:59:59 444浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2502.04896项目链接:https:saiyanworld.github.iogoku亮点直击业界领先的文本生成图像和视频能力,在多个基准测试中创下新纪录。创新性地引入RectifiedFlowTransformer,提高图像视频的联合生成质量。构建大规模高质量数据集,结合MLLM&LLM提高文本描述质量。优化计算效率与训练稳定性,支持大规模分布式训练,实现高效推理。总结速览解决的问题现有的图像与视频生成模型在质量、一致性和计算效率...
2025-02-13 09:21:09 544浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.03206项目链接:https:hugwbc.github.io亮点直击一个扩展的通用指令空间,结合高级训练技术,以实现细粒度的人形机器人步态控制。在单一策略下(除单脚跳步态外),可精准跟踪四种不同步态下的八种不同指令。一个基础的人形机器人控制器,支持外部上半身干预,并能够执行更广泛的运动操作一体化(locomanipulation)任务。总结速览解决的问题当前的人形机器人行走系统单一、被动,缺乏可扩展...
2025-02-11 11:59:33 493浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.04299git链接:https:motioncanvas25.github.io亮点直击将电影镜头设计引入图像到视频的合成过程中。推出了MotionCanvas,这是一种简化的视频合成系统,用于电影镜头设计,提供整体运动控制,以场景感知的方式联合操控相机和对象的运动。设计了专门的运动条件机制,以控制信号引导基于DiT的视频扩散模型,这些信号捕捉相机和对象的运动。结合了一个运动信号翻译模块,将描绘的场景空间运动意...
2025-02-11 11:42:23 621浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.03444项目链接:https:github.comHhhhhhaocontinuoustokenizer亮点直击理论与实验分析:通过实验和理论分析建立了隐空间结构与扩散模型性能之间的联系。揭示了具有更少高斯混合模型(GMM)模式的结构化潜空间能够更有效地训练和生成扩散模型。MAETok:使用mask建模训练普通自编码器(AE),并证明了具有更具判别性的潜空间的简单AE能够加速学习、提高生成质量,并提升扩散模型的吞吐量,从而...
2025-02-08 11:15:25 484浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.03465git链接:https:github.comNutWorldNutWorld亮点直击首次提出了一个框架,可以通过单次前向传播,将随意拍摄的单目视频中的世界动态高效表示为动态GaussianSplatting(DynamicGaussianSplatting)。NutWorld框架结合了STAG表示、精心设计的前向重建网络,以及用于从随意视频中实现空间和时间一致性恢复的有效正则化策略。在视频重建和多种下游任务上的大量实验,验证了NutWorld在时空一...
2025-02-07 16:18:32 600浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.01993代码&模型链接:https:github.comJianzeLi114FluxSR亮点直击开发了FluxSR,一种基于FLUX.1dev的单步扩散RealISR模型。这是首个基于超过120亿参数大模型的单步扩散RealISR模型。提出了一种流轨迹蒸馏(FTD)方法,明确建立了噪声到图像流与低分辨率到高分辨率流之间的关系。在噪声到图像流保持不变的情况下,能够保留T2I模型中的高度逼真性,并有效地将其转移到低分辨率到高分辨率的流中...
2025-02-06 11:32:16 887浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgabs2501.13554GitHub代码:https:github.combyliutao1Prompt1Story项目主页:https:byliutao.github.io1Prompt1Story.github.io亮点直击首次分析了语言模型维持固有上下文一致性的能力,能够在一个提示中让多个帧的描述天然指代同一主体身份。​基于上下文一致性特性,提出了一种新颖的免训练方法——OnePromptOneStory,用于实现一致的文本到图像生成。更具体地,进一步提出了提示加权(SVR)和交叉...
2025-02-06 11:12:02 832浏览 0点赞 0回复 0收藏
获得成就
已积累 10.4w 人气
获得 2 个点赞
获得 7 次收藏