本文回顾了多模态LLM(视觉语言模型)近一年来的模型架构演进,对其中有代表性的工作进行了精炼总结,截止2024.04,持续更新ing...ASurveyonMultimodalLargeLanguageModels(arxiv.orgabs2306.13549)AwesomeMultimodalLargeLanguageModels(github.comBradyFUAwesomeMultimodalLargeLanguageModels)这篇综述一张图总结了多模态LLM的典型架构:BLIP【2022.01发布】https:arxiv.orgabs2201.12086统一视觉语言理解和生成,使用capt...