Hugging Face 开源全球最小视觉语言模型

Hugging Face 公司开源了 SmolVLM-256M，这是一个参数量最少的视觉语言模型。它能在普通笔记本电脑上运行，支持多种视觉数据处理任务。该模型采用新的编码器，在多项基准测试中表现出色，展现了小型模型的巨大潜力。

Hugging Face Inc. 今天开源了 SmolVLM-256M，这是一个在其类别中参数量最少的新型视觉语言模型。

该算法的小型特性使其能够在处理能力相对有限的消费级笔记本电脑等设备上运行。据 Hugging Face 表示，它甚至可能在浏览器中运行。后者得益于该模型对 WebGPU 的支持，这项技术允许 AI 驱动的网页应用程序使用用户电脑中的图形处理器。

SmolVLM-256M 可用于多种视觉数据处理任务。它可以回答关于扫描文档的问题、描述视频内容并解释图表。Hugging Face 还开发了一个版本的模型，可以根据用户提示定制输出内容。

从技术角度看，SmolVLM-256M 拥有 2.56 亿个参数。这仅是最先进基础模型中数千亿参数的一小部分。模型的参数量越低，所需的硬件资源就越少，这也是为什么 SmolVLM-256M 能够在笔记本电脑等设备上运行。

该算法是 Hugging Face 发布的一系列开源视觉语言模型中的最新成果。与该公司早期模型相比，SmolVLM-256M 的主要改进之一是使用了新的编码器。这是一个软件模块，负责将 AI 处理的文件转换为神经网络更容易处理的数学结构编码。

SmolVLM-256M 的编码器基于开源 AI 模型 SigLIP base patch-16/512。后者则源自 OpenAI 在 2021 年发布的图像处理模型。该编码器包含 9300 万个参数，不到 Hugging Face 上一代编码器参数数量的四分之一，这帮助公司减少了 SmolVLM-256M 的硬件需求。

Hugging Face 的工程师 Andres Marafioti、Miquel Farré 和 Merve Noyan 在博客文章中写道："作为额外收益，更小的编码器可以处理更高分辨率的图像，根据苹果和谷歌的研究，这通常可以在不增加参数数量的情况下获得更好的视觉理解能力。"

该公司使用其前代视觉语言模型的改进数据集来训练这个 AI。为了提升 SmolVLM-256M 的推理能力，Hugging Face 在数据集中加入了一系列手写数学表达式。公司还进行了其他补充，旨在提高模型的文档理解和图像描述能力。

在内部评估中，Hugging Face 将 SmolVLM-256M 与其 18 个月前发布的一个拥有 800 亿参数的多模态模型进行了比较。在超过半数的基准测试中，前者获得了更高的分数。在一个名为 MathVista 的包含几何问题的基准测试中，SmolVLM-256M 的得分高出超过 10%。

Hugging Face 同时推出了第二个更强大的算法 SmolVLM-500M，它拥有 5 亿个参数。它牺牲了一些硬件效率来换取更高的输出质量。根据 Hugging Face 的说法，SmolVLM-500M 在遵循用户指令方面也表现得更好。

公司的工程师写道："如果你需要更多性能空间，同时仍然保持较低的内存使用率，SmolVLM-500M 是我们的五亿参数折中方案。"

Hugging Face 已将这两个模型的源代码上传到其同名 AI 项目托管平台。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

Hugging Face 开源全球最小视觉语言模型

来源：SiliconANGLE

2025

01/26

11:10

分享

点赞

Google力推手机AI功能引发关注

Meta发布AI翻译功能，支持脸书和Instagram内容实时转换

HPE发布Nvidia Blackwell驱动的AI服务器，抢占AI市场需求

ISACA推出AI安全管理高级认证项目

谷歌推出智能体SOC系统提升安全事件响应速度

Lumen升级400GB数据中心连接基础设施助力AI发展

AI和流媒体推动，2030年面临"网络危机"

Pine64停产Pro手机转向RISC-V业务

日立Vantara将VSP One块存储扩展至Azure云平台

Finchetto光学数据包交换机：光无法存储的技术挑战与突破

Python开发者调查显示增长强劲，但基金会资金面临困境

多站点IT基础设施升级指南：告别VMware的替代方案

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: