要点速达👈
- 💡 SmolVLM以20亿参数、低内存占用和高效速度脱颖而出,专为设备端推理设计
- 🔓 完全开源,提供多个版本(Base、Synthetic、Instruct)满足不同需求
- 📈 SmolVLM在多个基准测试中表现卓越,吞吐量相比Qwen2-VL提升显著
- 🧠 采用SmolLM2 1.7B主干和像素混洗策略,提高视觉信息压缩效率9倍
- ⚡ 在内存占用方面,SmolVLM大幅降低了同类模型的负担,提升设备端运行效率
数智朋克报道,Hugging Face近日发布了其全新推出的视觉语言模型(VLM)SmolVLM。与传统的大型视觉语言模型相比,SmolVLM以其仅有20亿参数和极低的内存占用成为设备端推理的突破者。官方表示,SmolVLM具有体积小、速度快、内存高效的优点,特别适合需要在硬件资源受限的设备上运行的应用。
SmolVLM AI模型是完全开源的,所有相关模型检查点、VLM数据集、训练配方及工具均按照Apache 2.0许可证发布。该模型分为三个版本,分别是:SmolVLM-Base(适合下游微调)、SmolVLM-Synthetic(基于合成数据的微调版本)和SmolVLM-Instruct(指令微调版本,专为交互式应用设计)。这些版本为开发者提供了丰富的定制化选项。
SmolVLM的核心创新在于其架构设计,借鉴了Idefics3,并采用了SmolLM2 1.7B作为语言主干。在视觉信息处理方面,通过像素混洗策略将图像数据的压缩率提高了9倍。训练数据集涵盖了Cauldron和Docmatix,且对SmolLM2进行了上下文扩展,使其能够处理更长的文本序列和多张图像。
内存方面,SmolVLM能够将384x384像素的图像块编码为81个tokens,相比之下,其他同类模型如Qwen2-VL则需使用1.6万个tokens,这使得SmolVLM在相同条件下显著降低了内存占用,解决了以往大型视觉语言模型在普通设备上运行缓慢甚至崩溃的问题。
在多个基准测试中,SmolVLM也表现出色,尤其在MMMU、MathVista、MMStar、DocVQA和TextVQA等任务上,SmolVLM的吞吐量相较Qwen2-VL有着显著提升。
具体而言,SmolVLM在预填充(prefill)吞吐量上快了3.3到4.5倍,在生成吞吐量上则快了7.5到16倍。