五款小型多模态AI模型及其功能 原创

发布于 2024-12-9 08:13
浏览
0收藏

在过去几年里,我们已经见证了大型语言模型(LLM)的飞速发展,数十亿个参数的基础助力它们成为分析、总结和生成文本及图像,或者创建聊天机器人等任务的强大工具。

所有这些功能都有一些明显的限制,特别是如果用户没有足够的资金或硬件来容纳这些LLM所需的大量计算资源。在这种情况下,小型语言模型(SLM)应运而生,为资源受限的用户提供了所需服务。

现在,随着人们对能够同时处理不同类型数据(图像、文本、音频和视频)的多模态人工智能系统的兴趣日益浓厚,这些多功能工具的小型版本也随之增加。下面,我们将介绍最近受到广泛关注的5款小型多模态AI工具。

1. TinyGPT-V


作为一款新型的多模态AI模型,TinyGPT-V仅拥有2.8B参数,但它能够通过独特的量化过程,在各类设备上实现高效的局部部署和推理任务,展现了与更大模型相匹敌的强大性能。

TinyGPT-V的架构具有优化的变压器层,在尺寸,性能和效率之间取得平衡,此外还使用专门的机制来处理图像输入并将其与文本输入集成。它是使用相对较小的LLM Phi-2构建的,并与来自BLIP-2或CLIP的预训练视觉模块相结合,在处理图像描述、视觉问答等任务上表现出色。

TinyGPT-V的主要卖点是其显著的计算效率。相比于需要大量GPU资源的模型如LLaVA-v1.5-13B,TinyGPT-V仅需要24G GPU进行训练,8G GPU或CPU即可完成推理,大幅降低了运行成本。

TinyGPT-V非常适用于中小型企业,或者那些希望在本地部署它的教育或研究机构,因为这些组织通常资金和资源都更为有限。

2. TinyLlaVA

TinyLlaVA框架主要由三部分组成:小规模LLM、视觉编码器和连接器。其中:

  • 小规模LLM是框架的核心,负责处理和生成文本信息。小规模LLM可以选用TinyLlama、StableLM-2、Phi-2等,它们能够在保持较小参数规模的同时处理复杂的语言任务。
  • 视觉编码器的作用是将输入的图像转换为一系列视觉特征。在TinyLLaVA框架中,主要使用CLIP和SigLIP作为视觉编码器,这些编码器能够提取图像中的关键视觉信息。
  • 连接器是视觉编码器和LLM之间的桥梁,它负责将视觉特征映射到文本嵌入空间。这样,LLM就能够理解和生成与视觉内容相关联的文本。

TinyLlaVA使用两个不同的数据集进行训练:LLaVA-1.5和ShareGPT4V。监督微调过程允许调整LLM和视觉编码器的部分可学习参数。

根据测试,TinyLlaVA性能最好的版本是TinyLLaVA-share-Sig-Phi 3.1B版本,优于LLaVA-1.5和Qwen-VL等7B型号。此外,该框架还提供了对模型选择、训练配方和对小规模LLM性能的数据贡献的全面分析。它的存在很好地说明了如何利用小规模LLM在可访问性和效率方面提供显著优势,同时又不牺牲性能。

3. GPT-40 mini

GPT-40 mini是OpenAI最新推出的语言模型,专为那些需要强大语言处理能力但又受限于预算的开发者设计。这个模型在多个方面表现优异,不仅具备与其大规模版本相似的生成和理解能力,还在多模态推理上表现突出。

GPT-40 mini是由较大的GPT-40通过蒸馏过程衍生而来,在性能和成本上找到了一个理想的平衡点。它不仅支持文本输入,还具备处理图像的能力,使其在多模态应用中具有独特优势。例如,开发者可以利用该模型进行图像识别、描述生成和视觉问答等任务,显著扩展了模型的应用范围。

在安全性方面,OpenAI为GPT-40 mini实施了严格的安全措施,包括内容过滤和人类反馈强化学习(RLHF)。这些措施确保了模型在处理敏感信息时的可靠性和安全性,帮助开发者构建更安全的应用。

4. Phi-3 Vision

这个强大的视觉语言版本是微软Phi-3的一个基于转换器的模型,它包含一个图像编码器、连接器、投影仪和Phi-3 Mini语言模型。在42亿个参数下,Phi-3 Vision能够支持高达128K的令牌上下文长度,以及“广泛的多模态推理”,使其能够理解和生成基于图表、图形和表格的内容。

Phi-3 Vision的性能可以与OpenAI的GPT-4V等大型模型相媲美,非常适合资源受限的环境和延迟受限的场景,在离线操作、成本和用户隐私方面具有优势。

潜在的用例包括用于改善客户支持的文档和图像分析,社会媒体内容审核,以及企业或教育机构的视频分析。

5. Mississippi 2B和Mississippi 0.8B

H2O最近发布的Mississippi 2B和Mississippi 0.8B是专门为OCR和Document AI用例设计的两款多模态基础模型。这些视觉语言模型旨在为企业提供一种可扩展且经济高效的方式来实时执行文档分析和图像识别。

这些模型的特点是具有多层微调和最小延迟的多阶段训练,这使它们非常适合需要处理大量文档的医疗保健,银行,保险和金融等行业。

目前,在Hugging Face上可以免费获得H2OVL Mississippi 2B和H2OVL Mississippi 0.8B,这使得开发人员、研究人员和企业都可以对其进行微调和修改。

结语

可访问性和成本效率仍然是多模态模型和大型语言模型的主要问题。但随着越来越多相对轻量级但功能强大的多模态人工智能选项的出现,这意味着更多的机构和小型企业有机会将人工智能应用到自己的工作流程中。

原文标题:​5 Small-Scale Multimodal AI Models and What They Can Do作者:Kimberley Mok

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
收藏
回复
举报
回复
相关推荐