2024年以来,学术和产业界的那些SOTA多模态大模型的架构演进之路
精华
作者:Dreamweaver(已授权转载)编辑:AI生成未来链接:https:zhuanlan.zhihu.comp706145455本文是《多模态视觉语言大模型的架构演进》的续篇,聚焦2024年以来学术界和产业界的SOTA多模态大模型(MultimodalLargeLanguageModels,MLLM),分享架构设计中的深刻见解与最佳实践。我们会发现,最新流行的MLLM架构大多采用类LLaVA的ViT+MLP+LLM范式。得益于LLaVA的精简设计、数据和训练高效性、更强的baseline性能,LLaVA架构建立起了良...