Hugging Face 开源全球最小视觉语言模型

Hugging Face 公司开源了 SmolVLM-256M，这是一个参数量最少的视觉语言模型。它能在普通笔记本电脑上运行，支持多种视觉数据处理任务。该模型采用新的编码器，在多项基准测试中表现出色，展现了小型模型的巨大潜力。

Hugging Face Inc. 今天开源了 SmolVLM-256M，这是一个在其类别中参数量最少的新型视觉语言模型。

该算法的小型特性使其能够在处理能力相对有限的消费级笔记本电脑等设备上运行。据 Hugging Face 表示，它甚至可能在浏览器中运行。后者得益于该模型对 WebGPU 的支持，这项技术允许 AI 驱动的网页应用程序使用用户电脑中的图形处理器。

SmolVLM-256M 可用于多种视觉数据处理任务。它可以回答关于扫描文档的问题、描述视频内容并解释图表。Hugging Face 还开发了一个版本的模型，可以根据用户提示定制输出内容。

从技术角度看，SmolVLM-256M 拥有 2.56 亿个参数。这仅是最先进基础模型中数千亿参数的一小部分。模型的参数量越低，所需的硬件资源就越少，这也是为什么 SmolVLM-256M 能够在笔记本电脑等设备上运行。

该算法是 Hugging Face 发布的一系列开源视觉语言模型中的最新成果。与该公司早期模型相比，SmolVLM-256M 的主要改进之一是使用了新的编码器。这是一个软件模块，负责将 AI 处理的文件转换为神经网络更容易处理的数学结构编码。

SmolVLM-256M 的编码器基于开源 AI 模型 SigLIP base patch-16/512。后者则源自 OpenAI 在 2021 年发布的图像处理模型。该编码器包含 9300 万个参数，不到 Hugging Face 上一代编码器参数数量的四分之一，这帮助公司减少了 SmolVLM-256M 的硬件需求。

Hugging Face 的工程师 Andres Marafioti、Miquel Farré 和 Merve Noyan 在博客文章中写道："作为额外收益，更小的编码器可以处理更高分辨率的图像，根据苹果和谷歌的研究，这通常可以在不增加参数数量的情况下获得更好的视觉理解能力。"

该公司使用其前代视觉语言模型的改进数据集来训练这个 AI。为了提升 SmolVLM-256M 的推理能力，Hugging Face 在数据集中加入了一系列手写数学表达式。公司还进行了其他补充，旨在提高模型的文档理解和图像描述能力。

在内部评估中，Hugging Face 将 SmolVLM-256M 与其 18 个月前发布的一个拥有 800 亿参数的多模态模型进行了比较。在超过半数的基准测试中，前者获得了更高的分数。在一个名为 MathVista 的包含几何问题的基准测试中，SmolVLM-256M 的得分高出超过 10%。

Hugging Face 同时推出了第二个更强大的算法 SmolVLM-500M，它拥有 5 亿个参数。它牺牲了一些硬件效率来换取更高的输出质量。根据 Hugging Face 的说法，SmolVLM-500M 在遵循用户指令方面也表现得更好。

公司的工程师写道："如果你需要更多性能空间，同时仍然保持较低的内存使用率，SmolVLM-500M 是我们的五亿参数折中方案。"

Hugging Face 已将这两个模型的源代码上传到其同名 AI 项目托管平台。

来源：SiliconANGLE

0赞

好文章，需要你的鼓励

Hugging Face 开源全球最小视觉语言模型

来源：SiliconANGLE

2025

01/26

11:10

分享

点赞

高途x人大：在教育的深处，种下“有温度的AI”

北大团队揭秘AI安全训练为何如此脆弱——大模型中隐藏的"弹簧效应"

AI地震检测技术：像戴上眼镜一样清晰

医疗集团CIO采用AI提升生产力，在联络中心谨慎推进AI应用

仅需250个恶意文档就能让大语言模型产生后门漏洞

CIO们利用AI助力IT采购决策，超八成决策者已开始使用

AI拥抱并扩展企业软件市场，资金持续涌入

Spotify已可连接ChatGPT：互动功能体验升级

量子计算公司IonQ获得20亿美元融资加速商业化进程

Apple 收购计算机视觉初创公司 Prompt AI

Windows Copilot现可创建Office文档并连接Gmail

用上18A的英特尔至强6+，究竟“+”了什么？

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

PEC 2025 AI创新者大会

用AI，在数字身份验证风暴中心重构信任坐标

关于AI Agent落地，李开复强调了两件事：“价值交付”和“一把手工程”

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: