SmolVLM 是一个 20 亿参数的轻量级视觉语言模型(VLM),主要功能是理解和处理图像与文本的多模态信息,可实现图像描述、文档解析、视觉问答、视频分析等任务。
图像理解与交互:输入图片后,能根据文字提示生成回答,列如分析建筑风格、识别图像中的物体(如厨房调料瓶)并描述内容。
文档与表格处理:解析发票、试卷等文档中的文字和表格结构,提取关键信息(如发票日期、金额)。
视频基础分析:通过提取视频帧,识别画面中的物体和场景(如厨房烹饪画面中的食材),但时间序列理解稍弱。
多语言与长上下文支持:支持长文本输入,能处理多图像输入,适合本地设备部署(如笔记本)。
体验1:https://huggingface.co/spaces/HuggingFaceTB/SmolVLM 体验2:https://huggingface.co/spaces/HuggingFaceTB/SmolVLM-256M-Demo 开源:https://github.com/huggingface/smollm