angel
LV.8
这个用户很懒,还没有个人简介
声望 2683
关注 0
粉丝 7
私信
主帖 284
回帖
论文链接:https:arxiv.orgpdf2502.04507Git链接:https:github.comhaoailabFastVideoHuggingface:https:huggingface.coFastVideoFastHunyuan亮点直击识别并量化了最先进的视频DiT中的3D局部性和头部specialization,揭示了完整3D注意力中的大量冗余。引入了SLIDINGTILEATTENTION,一种基于分块的滑动窗口注意力机制。优化内核与FlashAttention3相比实现了最小的开销,MFU达到58.79%。STA将注意力加速超过10倍,并将端到端视频...
22h前 111浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.12150Git链接:https:github.comlocuslabllmidiosyncrasies亮点直击高准确率的模型区分:通过简单的文本嵌入模型微调,实现了高达97.1%的分类准确率,显著高于随机猜测的20.0%。语义保留变换下的强鲁棒性:即使对文本进行重写、翻译或总结等语义保留变换,分类准确率仍保持在90%以上,表明LLM的独特性不仅体现在词汇层面,还体现在语义层面。开放描述生成:利用LLM作为评判者,生成每个模型独...
2天前 247浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgabs2502.10841项目链接:https:skyworkai.github.ioskyreelsa1.github.ioDemo链接:https:www.skyreels.ai开源地址:https:github.comSkyworkAISkyReelsA1、https:github.comSkyworkAISkyReelsV1昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReelsV1、中国首个SOTA级别基于视频基座模型的表情动作可控算法SkyReelsA1。亮点直击提出了SkyReelsA1,一种用于肖像动画的全新框架,采用DiT(扩散Tr...
3天前 459浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.07785项目链接:https:yashkant.github.iopippo亮点直击一种生成模型:能够从单张图像生成高分辨率和多视角一致的人体,并提出了有效的训练策略。一种扩散Transformer架构:专为增强多视角生成和视角控制而设计。一种注意力偏置技术:能够在推理时生成比训练时多5倍以上的视角。一种新颖的3D一致性指标:用于准确衡量生成任务中的3D一致性水平。总结速览解决的问题高质量多视角数据获取成本高...
3天前 206浏览 0点赞 0回复 0收藏
论文地址:https:arxiv.orgpdf2409.04005项目主页:https:360cvgroup.github.ioQihooT2X代码仓库:https:github.com360CVGroupQihooT2X​作者信息:论文一作为来自中山大学的博士生王晶;论文共同一作和项目leader为来自360AIResearch视频生成方向的负责人马傲亮点直击提出了ProxyTokenized扩散transformer(ProxyTokenizedDiffusionTransformer,PTDiT)。推出了QihooT2X系列模型,包括文本到图像(T2I)、文本到视频(T2V)以...
5天前 314浏览 0点赞 0回复 0收藏
本文介绍了多模态大型语言模型(MLLM)的定义、使用挑战性提示的应用场景,以及正在重塑计算机视觉的顶级模型。目录什么是多模态大语言模型(MLLM)?MLLM在计算机视觉中的应用与案例领先的多模态大型语言模型未来展望1.什么是多模态大型语言模型(MLLM)?简单来说,多模态大型语言模型(MLLM)是结合了大型语言模型(LLM)(如GPT3[2]或LLaMA3[3])的推理能力,同时具备接收、理解并输出多种模态信息的能力。示例:图1展示了...
5天前 917浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.05179项目链接:https:github.comFoundationVisionFlashVideo亮点直击提出了FlashVideo,一种将视频生成解耦为两个目标的方法:提示匹配度和视觉质量。通过在两个阶段分别调整模型规模、分辨率和优化策略,本文的方法相比现有方法实现了更高的效果和效率。通过流匹配(flowmatching)构造了从低质量视频到高质量视频的近乎直线的ODE轨迹,使得视频在仅4次函数评估内即可融入丰富细节。本文的...
9天前 369浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2502.04896项目链接:https:saiyanworld.github.iogoku亮点直击业界领先的文本生成图像和视频能力,在多个基准测试中创下新纪录。创新性地引入RectifiedFlowTransformer,提高图像视频的联合生成质量。构建大规模高质量数据集,结合MLLM&LLM提高文本描述质量。优化计算效率与训练稳定性,支持大规模分布式训练,实现高效推理。总结速览解决的问题现有的图像与视频生成模型在质量、一致性和计算效率...
9天前 413浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.03206项目链接:https:hugwbc.github.io亮点直击一个扩展的通用指令空间,结合高级训练技术,以实现细粒度的人形机器人步态控制。在单一策略下(除单脚跳步态外),可精准跟踪四种不同步态下的八种不同指令。一个基础的人形机器人控制器,支持外部上半身干预,并能够执行更广泛的运动操作一体化(locomanipulation)任务。总结速览解决的问题当前的人形机器人行走系统单一、被动,缺乏可扩展...
2025-02-11 11:59:33 405浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.04299git链接:https:motioncanvas25.github.io亮点直击将电影镜头设计引入图像到视频的合成过程中。推出了MotionCanvas,这是一种简化的视频合成系统,用于电影镜头设计,提供整体运动控制,以场景感知的方式联合操控相机和对象的运动。设计了专门的运动条件机制,以控制信号引导基于DiT的视频扩散模型,这些信号捕捉相机和对象的运动。结合了一个运动信号翻译模块,将描绘的场景空间运动意...
2025-02-11 11:42:23 519浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.03444项目链接:https:github.comHhhhhhaocontinuoustokenizer亮点直击理论与实验分析:通过实验和理论分析建立了隐空间结构与扩散模型性能之间的联系。揭示了具有更少高斯混合模型(GMM)模式的结构化潜空间能够更有效地训练和生成扩散模型。MAETok:使用mask建模训练普通自编码器(AE),并证明了具有更具判别性的潜空间的简单AE能够加速学习、提高生成质量,并提升扩散模型的吞吐量,从而...
2025-02-08 11:15:25 394浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.03465git链接:https:github.comNutWorldNutWorld亮点直击首次提出了一个框架,可以通过单次前向传播,将随意拍摄的单目视频中的世界动态高效表示为动态GaussianSplatting(DynamicGaussianSplatting)。NutWorld框架结合了STAG表示、精心设计的前向重建网络,以及用于从随意视频中实现空间和时间一致性恢复的有效正则化策略。在视频重建和多种下游任务上的大量实验,验证了NutWorld在时空一...
2025-02-07 16:18:32 486浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2502.01993代码&模型链接:https:github.comJianzeLi114FluxSR亮点直击开发了FluxSR,一种基于FLUX.1dev的单步扩散RealISR模型。这是首个基于超过120亿参数大模型的单步扩散RealISR模型。提出了一种流轨迹蒸馏(FTD)方法,明确建立了噪声到图像流与低分辨率到高分辨率流之间的关系。在噪声到图像流保持不变的情况下,能够保留T2I模型中的高度逼真性,并有效地将其转移到低分辨率到高分辨率的流中...
2025-02-06 11:32:16 710浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgabs2501.13554GitHub代码:https:github.combyliutao1Prompt1Story项目主页:https:byliutao.github.io1Prompt1Story.github.io亮点直击首次分析了语言模型维持固有上下文一致性的能力,能够在一个提示中让多个帧的描述天然指代同一主体身份。​基于上下文一致性特性,提出了一种新颖的免训练方法——OnePromptOneStory,用于实现一致的文本到图像生成。更具体地,进一步提出了提示加权(SVR)和交叉...
2025-02-06 11:12:02 566浏览 0点赞 0回复 0收藏
虽然大模型取得突破性进展,但其在多语言场景下仍具有局限性,存在很大的改善空间。那么,大模型多语言能力到底什么水平?其发展又存在什么样的挑战?来自北京交通大学、加拿大蒙特利尔大学、加拿大滑铁卢大学和清华大学的研究团队发表了题为”ASurveyonLargeLanguageModelswithMultilingualism:RecentAdvancesandNewFrontiers”(大模型的多语言能力综述)的论文,全面回顾了大模型在多语言能力上的最新进展与未来发展方向。论...
2025-01-26 11:40:43 999浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2501.12375git链接:https:videodepthanything.github.io亮点直击开发了一种新方法,将“DepthAnything”转换为“视频DepthAnything”,用于任意长度视频的深度估计。提出了一种简单而有效的损失函数,该函数在不引入几何或生成先验的情况下,强制执行时间一致性约束。该模型不仅在视频深度估计中(空间和时间上)获得了新的SOTA(最先进技术),而且在计算效率上也是最高的。总结速览解决的问题De...
2025-01-24 13:30:58 475浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2501.08994项目链接:https:vchitect.github.ioRepVidWebpage亮点直击研究了视频扩散模型中的transformer表示,揭示了各层注意力图的显著变化导致了空间语义的碎片化和时间一致性的降低,这对视频质量产生了负面影响。提出了RepVideo,一个利用特征缓存模块和门控机制来聚合和稳定中间表示的框架,增强了空间细节和时间一致性。大量实验表明,RepVideo在时间一致性和空间质量方面都取得了竞争力的表...
2025-01-23 10:36:40 554浏览 0点赞 0回复 0收藏
论文链接:https:arxiv.orgpdf2501.09503项目链接:https:aigcdesigngroup.github.ioAnyStory亮点直击提出了一种统一的单主体和多主体个性化框架,称为AnyStory。该框架在个性化单主体和多主体时实现了一致性,同时遵循文本提示;引入了一种增强的主体表示编码器,由简化的轻量级ReferenceNet和CLIP视觉编码器组成,能够对一般主体进行高保真细节编码;提出了一种解耦的实例感知router模块,能够准确感知和预测主体的隐空间条件...
2025-01-22 11:50:19 279浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2412.04449项目链接:https:github.comMCGNJUpMoD亮点直击MoD机制的引入:通过选择性处理重要视觉token,显著减少计算负担,提升模型效率。创新的TanhNorm与STRing设计:解决了MoD模块在多模态训练中的稳定性和性能问题,即使在有限数据下也能精准评估token的重要性。PRD策略:通过逐层减少保留token的比例,针对视觉token的冗余问题提供了有效的解决方案,大幅提高计算效率。全面的实验验证:在多...
2025-01-21 10:46:17 512浏览 0点赞 0回复 0收藏
文章链接:https:arxiv.orgpdf2501.05131项目链接:https:limuloo.github.io3DIS亮点直击3DIS的创新:通过深度驱动的解耦生成框架,大大降低了对计算资源的需求,并解决了适配器方法的重新训练问题。FLUX的集成:3DISFLUX利用FLUX模型提升了渲染质量和控制能力,超越了传统的UNet架构。训练free细节渲染:通过细致控制FLUX模型中的Attention机制,成功实现了对每个实例细节的精确渲染,避免了额外的训练负担。性能与质量双重提...
2025-01-20 10:50:32 417浏览 0点赞 0回复 0收藏
获得成就
已积累 9.8w 人气
获得 2 个点赞
获得 7 次收藏