BAAI刚刚开源了Emu3多模态大模型,仅使用单个transformer,使用下一个token预测的方法从0进行训练!通过将图像、文本和视频tokenize到一个统一的离散的空间中,直接通过预测下一个token实现文本、图像和视频生成。Homepage:https:emu.baai.ac.cnGithub:https:github.combaaivisionEmu3Model:https:huggingface.coBAAIEmu3GenEmu3Emu3在生成和感知任务中超越了多个任务的专用模型,表现优于主流开源模...