Hugging Face Inc. 今天开源了 SmolVLM-256M,这是一个在其类别中参数量最少的新型视觉语言模型。
该算法的小型特性使其能够在处理能力相对有限的消费级笔记本电脑等设备上运行。据 Hugging Face 表示,它甚至可能在浏览器中运行。后者得益于该模型对 WebGPU 的支持,这项技术允许 AI 驱动的网页应用程序使用用户电脑中的图形处理器。
SmolVLM-256M 可用于多种视觉数据处理任务。它可以回答关于扫描文档的问题、描述视频内容并解释图表。Hugging Face 还开发了一个版本的模型,可以根据用户提示定制输出内容。
从技术角度看,SmolVLM-256M 拥有 2.56 亿个参数。这仅是最先进基础模型中数千亿参数的一小部分。模型的参数量越低,所需的硬件资源就越少,这也是为什么 SmolVLM-256M 能够在笔记本电脑等设备上运行。
该算法是 Hugging Face 发布的一系列开源视觉语言模型中的最新成果。与该公司早期模型相比,SmolVLM-256M 的主要改进之一是使用了新的编码器。这是一个软件模块,负责将 AI 处理的文件转换为神经网络更容易处理的数学结构编码。
SmolVLM-256M 的编码器基于开源 AI 模型 SigLIP base patch-16/512。后者则源自 OpenAI 在 2021 年发布的图像处理模型。该编码器包含 9300 万个参数,不到 Hugging Face 上一代编码器参数数量的四分之一,这帮助公司减少了 SmolVLM-256M 的硬件需求。
Hugging Face 的工程师 Andres Marafioti、Miquel Farré 和 Merve Noyan 在博客文章中写道:"作为额外收益,更小的编码器可以处理更高分辨率的图像,根据苹果和谷歌的研究,这通常可以在不增加参数数量的情况下获得更好的视觉理解能力。"
该公司使用其前代视觉语言模型的改进数据集来训练这个 AI。为了提升 SmolVLM-256M 的推理能力,Hugging Face 在数据集中加入了一系列手写数学表达式。公司还进行了其他补充,旨在提高模型的文档理解和图像描述能力。
在内部评估中,Hugging Face 将 SmolVLM-256M 与其 18 个月前发布的一个拥有 800 亿参数的多模态模型进行了比较。在超过半数的基准测试中,前者获得了更高的分数。在一个名为 MathVista 的包含几何问题的基准测试中,SmolVLM-256M 的得分高出超过 10%。
Hugging Face 同时推出了第二个更强大的算法 SmolVLM-500M,它拥有 5 亿个参数。它牺牲了一些硬件效率来换取更高的输出质量。根据 Hugging Face 的说法,SmolVLM-500M 在遵循用户指令方面也表现得更好。
公司的工程师写道:"如果你需要更多性能空间,同时仍然保持较低的内存使用率,SmolVLM-500M 是我们的五亿参数折中方案。"
Hugging Face 已将这两个模型的源代码上传到其同名 AI 项目托管平台。
好文章,需要你的鼓励
TechCrunch Disrupt 2025 AI舞台将汇聚塑造科技未来的领军人物,顶尖风投将揭示在快速变化的AI领域获得融资的关键。来自Apptronik、ElevenLabs、Hugging Face、Runway等创新企业的领导者将分享前沿洞见,探讨AI如何重塑创意过程、改变物理世界、变革国防安全和重新定义人际关系。10月27-29日,五大主题舞台将在旧金山呈现科技创新的未来图景。
西班牙研究团队提出了一种创新的AI自我纠错方法SSC,让人工智能学会识别和修正规则中的漏洞。当AI发现自己在钻空子获得高分时,它会反思规则的合理性并主动改进。实验显示这种方法将AI的"钻空子"行为从50-70%降低到3%以下,同时提升了回答质量。这项技术有望让AI从被动执行指令转变为能够质疑和改进指令的智能协作伙伴。
英超联赛与微软达成五年战略合作伙伴关系,推出AI驱动的Premier League Companion服务,为全球球迷提供个性化体验。该服务利用Azure OpenAI技术,整合30多个赛季的统计数据、30万篇文章和9000个视频,帮助球迷发现和了解更多内容。未来还将为Fantasy Premier League引入个人助理经理功能,并通过Azure AI优化比赛直播体验和赛后分析。
这篇文章详细解析了Long、Shelhamer和Darrell在2015年CVPR会议上发表的开创性研究"全卷积网络用于语义分割"。文章以通俗易懂的方式,将这项复杂的技术比作艺术家的绘画过程,解释了如何让计算机不仅识别图像中有什么物体,还能精确标出每个物体的位置和边界。研究团队通过将传统分类网络改造为全卷积形式,并巧妙运用上采样和跳跃连接技术,实现了高效准确的像素级图像理解。这一突破为自动驾驶、医学影像和增强现实等领域带来了革命性变化,奠定了现代计算机视觉的重要基础。