Hugging Face 发布 SmolVLM:用于设备端推理的 2B 参数视觉语言模型 原创
01、概述
在人工智能的浪潮中,我们越来越渴望拥有既能处理视觉和语言任务,又不依赖于庞大基础设施的机器学习模型。特别是对于笔记本电脑、消费级GPU或移动设备等设备,如何在性能和资源需求之间找到平衡点,成为了一个挑战。今天,我们要聊的就是这样一个“小而美”的解决方案——SmolVLM,一个由Hugging Face推出的2B参数视觉语言模型,专为设备端推理而设计。
02、性能与资源的平衡艺术
在视觉语言模型(VLMs)的世界里,许多模型需要大量的计算能力和内存,这对于设备端应用来说并不现实。比如Qwen2-VL这样的模型,虽然性能出色,但是需要昂贵的硬件和大量的GPU内存,限制了它们的普及和实时设备端任务的实用性。这就需要我们寻找一种轻量级模型,它们能在资源消耗最小的情况下提供强大的性能。
03、SmolVLM:轻量级模型的新标杆
Hugging Face最近发布的SmolVLM,就是这样一个在设备端推理中表现出色的模型。与同类GPU内存使用量和token吞吐量相当的其他模型相比,SmolVLM的性能更胜一筹。SmolVLM的关键特性是它能够在更小的设备上有效运行,包括笔记本电脑或消费级GPU,而且不会牺牲性能。它在性能和效率之间取得了难以置信的平衡,这对于类似大小和能力的模型来说是一个挑战。与Qwen2-VL 2B相比,SmolVLM生成token的速度要快7.5到16倍,这得益于其优化的架构,更倾向于轻量级推理。这种效率转化为了对最终用户的实用优势。
04、SmolVLM的优化架构
从技术角度来看,SmolVLM拥有一个优化的架构,使其能够有效地进行设备端推理。它可以使用Google Colab轻松进行微调,即使资源有限,也便于进行实验和开发。它的轻量级特性使其能够在笔记本电脑上流畅运行,或者使用消费级GPU处理数百万份文档。它的一个重要优势是其小内存占用,这使得它能够在以前无法处理类似大小模型的设备上部署。其效率在其token生成吞吐量中表现得尤为明显:与Qwen2-VL相比,SmolVLM的生成速度要快7.5到16倍。这一性能提升主要是由于SmolVLM的流线型架构优化了图像编码和推理速度。尽管它与Qwen2-VL拥有相同数量的参数,但SmolVLM高效的图像编码防止了设备过载——这是一个经常导致Qwen2-VL崩溃的问题。
05、SmolVLM的意义:无需强大硬件的高质量视觉语言推理
SmolVLM的意义在于它能够在不需要强大硬件的情况下提供高质量的视觉语言推理。对于希望在不投资昂贵GPU的情况下进行视觉语言任务实验的研究者、开发者和爱好者来说,这是一个重要的步骤。在团队进行的测试中,SmolVLM在用YouTube视频的50帧进行评估时展示了其效率,结果证明了在CinePile(一个评估模型理解电影视觉能力的基准)上进行进一步测试的合理性。结果显示,SmolVLM得分27.14%,位于两个资源消耗更大的模型:InternVL2(2B)和Video LlaVa(7B)之间。值得注意的是,SmolVLM并未在视频数据上进行训练,但它的性能与为此类任务设计的模型相当,展示了其鲁棒性和多功能性。此外,SmolVLM在保持准确性和输出质量的同时实现了这些效率提升,突出表明创建较小模型时不必牺牲性能。
06、结语
总之,SmolVLM代表了视觉语言模型领域的一个重要进步。通过使复杂的VLM任务能够在日常设备上运行,Hugging Face解决了当前AI工具领域的一个重要缺口。SmolVLM在同类模型中表现出色,并且在速度、效率和设备端使用的实用性方面常常超越它们。凭借其紧凑的设计和高效的token吞吐量,SmolVLM将成为那些需要强大视觉语言处理能力但无法访问高端硬件的人的宝贵工具。这一发展有潜力扩大VLM的使用范围,使复杂的AI系统更加易于获取。随着AI变得更加个性化和普及,像SmolVLM这样的模型为使强大的机器学习更广泛地普及铺平了道路。
参考:
- https://huggingface.co/spaces/HuggingFaceTB/SmolVLM
- https://huggingface.co/blog/smolvlm
- https://github.com/huggingface/blog/blob/main/smolvlm.md
本文转载自公众号Halo咯咯 作者:基咯咯