五款小型多模态AI模型及其功能原创

51CTO内容精选

发布于 2024-12-9 08:13

浏览

0收藏

在过去几年里，我们已经见证了大型语言模型（LLM）的飞速发展，数十亿个参数的基础助力它们成为分析、总结和生成文本及图像，或者创建聊天机器人等任务的强大工具。

所有这些功能都有一些明显的限制，特别是如果用户没有足够的资金或硬件来容纳这些LLM所需的大量计算资源。在这种情况下，小型语言模型（SLM）应运而生，为资源受限的用户提供了所需服务。

现在，随着人们对能够同时处理不同类型数据（图像、文本、音频和视频）的多模态人工智能系统的兴趣日益浓厚，这些多功能工具的小型版本也随之增加。下面，我们将介绍最近受到广泛关注的5款小型多模态AI工具。

1. TinyGPT-V

作为一款新型的多模态AI模型，TinyGPT-V仅拥有2.8B参数，但它能够通过独特的量化过程，在各类设备上实现高效的局部部署和推理任务，展现了与更大模型相匹敌的强大性能。

TinyGPT-V的架构具有优化的变压器层，在尺寸，性能和效率之间取得平衡，此外还使用专门的机制来处理图像输入并将其与文本输入集成。它是使用相对较小的LLM Phi-2构建的，并与来自BLIP-2或CLIP的预训练视觉模块相结合，在处理图像描述、视觉问答等任务上表现出色。

TinyGPT-V的主要卖点是其显著的计算效率。相比于需要大量GPU资源的模型如LLaVA-v1.5-13B，TinyGPT-V仅需要24G GPU进行训练，8G GPU或CPU即可完成推理，大幅降低了运行成本。

TinyGPT-V非常适用于中小型企业，或者那些希望在本地部署它的教育或研究机构，因为这些组织通常资金和资源都更为有限。

2. TinyLlaVA

TinyLlaVA框架主要由三部分组成：小规模LLM、视觉编码器和连接器。其中：

小规模LLM是框架的核心，负责处理和生成文本信息。小规模LLM可以选用TinyLlama、StableLM-2、Phi-2等，它们能够在保持较小参数规模的同时处理复杂的语言任务。
视觉编码器的作用是将输入的图像转换为一系列视觉特征。在TinyLLaVA框架中，主要使用CLIP和SigLIP作为视觉编码器，这些编码器能够提取图像中的关键视觉信息。
连接器是视觉编码器和LLM之间的桥梁，它负责将视觉特征映射到文本嵌入空间。这样，LLM就能够理解和生成与视觉内容相关联的文本。

TinyLlaVA使用两个不同的数据集进行训练：LLaVA-1.5和ShareGPT4V。监督微调过程允许调整LLM和视觉编码器的部分可学习参数。

根据测试，TinyLlaVA性能最好的版本是TinyLLaVA-share-Sig-Phi 3.1B版本，优于LLaVA-1.5和Qwen-VL等7B型号。此外，该框架还提供了对模型选择、训练配方和对小规模LLM性能的数据贡献的全面分析。它的存在很好地说明了如何利用小规模LLM在可访问性和效率方面提供显著优势，同时又不牺牲性能。