公众号矩阵

移动端

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

烂漫树林

LV.1

这个用户很懒，还没有个人简介

帖子 5

声望 21

关注 0

粉丝 0

私信

关注

主帖 5

回帖

VideoMamba：用于高效视频理解的状态空间模型

我们提出了一个仅基于状态空间模型(SSM)的高效视频理解架构VideoMamba，并通过大量的实验证明了它具备一系列良好的特性，包括(1)VisualDomainScalability;(2)ShorttermActionSensitivity;(3)LongtermVideoSuperiority;(4)ModalityCompatibility。这使得VideoMamba在一系列视频benchmark上取得不俗的结果，尤其是长视频benchmark，为未来更全面的视频理解提供了更高效的方案。论文题目：VideoMamba:StateSpaceModelforEfficientV...

2024-04-09 10:21:16 3190浏览 0点赞 0回复 0收藏

通用的数据清洗框架：利用多模态大模型检测数据集中的恶意样本

在构建人工智能系统的过程中，数据的质量至关重要，但现实世界中的数据往往充满了噪声，甚至被恶意投毒，这给人工智能的发展带来了巨大的挑战。如何有效地清洗这些“脏样本”，以确保模型训练的准确性和可靠性，成为了一个亟待解决的问题。近期，香港中文大学（深圳）与腾讯AILab的研究团队在ICLR2024提出了提出了一种通用的数据清洗框架（VDC），利用多模态大模型（MLLM）来识别数据集中的视觉语言不一致性，从而检测出数据集...

2024-04-08 11:00:00 5519浏览 0点赞 0回复 0收藏

CVPR 2024 | 长时舞蹈生成：数秒钟可生成极长的3D舞蹈

针对目前音乐生成3D舞蹈动作中存在的长序列生成动作质量差，生成效率低的问题，本文提出了Lodge，可以高效地根据输入音乐生成极长的3D人体舞蹈动作。本文将Lodge设计为两阶段的由粗到细的Diffusion框架，并提出了特征化的舞蹈基元动作作为两阶段Diffusion的中间层表征，从而让Lodge可以兼顾全局编舞规律和局部的动作质量，并且增强舞蹈的表现力。此外，本文还提出了脚步优化模块以缓解脚和地面的接触问题如脚滑、脚步漂浮等。文...

2024-03-28 14:40:56 3597浏览 0点赞 0回复 0收藏

何时检索，何时生成？Self-DC：自我分治解决复合问题

当前研究关注大型语言模型在处理已知和未知问题时的知识边界。主要问题可分为四类：单一已知问题可通过模型内部知识解决，单一未知问题需调用外部工具获取知识，组合已知问题需要复杂推理，而组合未知问题则包含其他可能性。如何选择使用外部检索或模型内部知识来回答问题是个挑战。一种方法是朴素RAG，另一种是先评估问题的确定性或不确定性，然后调用生成读取或检索读取。然而，这两种方法都有局限性，简单地调用外部检索并不...

2024-03-28 14:30:10 2538浏览 0点赞 0回复 0收藏

ICCV 2023 Oral | 人类语言演化中学习最优图像颜色编码

人类的语言是一种对复杂世界的高度简洁的编码，特别是语言中颜色的概念，成功地将原本极大的色彩空间（如256三次方真色彩空间）压缩至5到10种颜色。受此启发，来自上海交大，日本理化学研究所，东京大学的研究人员，提出全新的基于视觉任务的色彩量化（colourquantisation）技术，利用深度学习重现人类数万年的颜色概念的演化。这项技术不但能推进文化人类学的研究，更是为网络量化(neuralnetworkquantisation)以及多模态大语言...

2024-03-28 14:23:35 2422浏览 0点赞 0回复 0收藏

获得成就

已积累 3892 人气

获得 0 个点赞

获得 0 次收藏