NeurIPS 2024 | 像素级LLM实现图像视频理解、生成、分割和编辑大统一
精华
文章链接:https:arxiv.orgpdf2412.19806项目链接:https:vitronllm.github.ioGithub链接:https:github.comSkyworkAIVitron亮点直击首次提出了一种通用的视觉多模态大语言模型(MLLM)——VITRON,能够在像素级对图像和视频进行理解、生成、分割和编辑。引入了一种更高效的LLM到解码器的指令传递机制,结合了离散文本和连续信号嵌入。提出了针对多模态大语言模型的像素级视觉语言时空对齐学习,使其能够达到最优的细粒度视觉能...