Liquid AI发布了LFM2-VL,这是新一代视觉-语言基础模型,专为在各种硬件设备上高效部署而设计——从智能手机、笔记本电脑到可穿戴设备和嵌入式系统。该模型承诺提供低延迟性能、高精度和实际应用的灵活性。
LFM2-VL基于该公司一个月前推出的现有LFM2架构构建,该架构被称为"市场上最快的设备端基础模型",得益于其为每个输入实时生成"权重"或模型设置的方法(称为线性输入变化系统),将其扩展到支持文本和图像输入的多模态处理,支持可变分辨率。
据Liquid AI表示,该模型的GPU推理速度比同类视觉-语言模型快两倍,同时在常见基准测试中保持竞争性能表现。
针对不同需求的两个版本
此次发布包括两种模型规模:
LFM2-VL-450M——一个超高效模型,参数不到5亿,针对资源极度受限的环境。
LFM2-VL-1.6B——一个更强大的模型,但仍轻量化足以在单GPU和设备端部署。
两个版本都能处理高达512×512像素的原生分辨率图像,避免失真或不必要的放大。对于更大图像,系统应用非重叠分块并添加缩略图以提供全局上下文,使模型能够同时捕获精细细节和更广阔的场景。
Liquid AI背景
Liquid AI由麻省理工学院计算机科学与人工智能实验室(CSAIL)的前研究人员创立,目标是构建超越广泛使用的Transformer模型的AI架构。该公司的旗舰创新——液体基础模型(LFM),基于动力学系统、信号处理和数值线性代数原理,产生能够处理文本、视频、音频、时间序列和其他序列数据的通用AI模型。
与传统架构不同,Liquid的方法旨在使用显著更少的计算资源提供竞争性或更优的性能,允许在推理过程中实时适应,同时保持低内存需求。这使得LFM既适合大规模企业用例,也适合资源有限的边缘部署。
2025年7月,该公司通过推出Liquid Edge AI平台(LEAP)扩展了其平台策略,这是一个跨平台SDK,旨在帮助开发者更容易地在移动和嵌入式设备上直接运行小型语言模型。LEAP提供iOS和Android的操作系统无关支持,与Liquid自有模型和其他开源小型语言模型集成,内置库包含小至300MB的模型——足够小以适配现代手机的最小RAM。
速度/质量权衡和技术设计
LFM2-VL使用模块化架构,结合语言模型骨干、SigLIP2 NaFlex视觉编码器和多模态投影器。投影器包含带像素解打乱的两层MLP连接器,减少图像Token数量并提高吞吐量。
用户可以调整参数,如最大图像Token或分块数量,根据部署场景平衡速度和质量。训练过程涉及约1000亿多模态Token,来源于开放数据集和内部合成数据。
性能和基准测试
该模型在一系列视觉-语言评估中实现了竞争性基准结果。LFM2-VL-1.6B在RealWorldQA(65.23分)、InfoVQA(58.68分)和OCRBench(742分)中表现良好,在多模态推理任务中保持稳定结果。在推理测试中,当在1024×1024图像和短提示的标准工作负载上测试时,LFM2-VL在其类别中实现了最快的GPU处理时间。
许可和可用性
LFM2-VL模型现已在Hugging Face上可用,同时提供Colab中的示例微调代码。它们与Hugging Face transformers和TRL兼容。模型在定制的"LFM1.0许可证"下发布。Liquid AI描述该许可证基于Apache 2.0原则,但完整文本尚未发布。该公司表示将在某些条件下允许商业使用,对年收入超过和低于1000万美元的公司采用不同条款。
通过LFM2-VL,Liquid AI旨在让高性能多模态AI在设备端和资源有限的部署中更易获得,而不牺牲能力。
Q&A
Q1:LFM2-VL模型有什么特别之处?
A:LFM2-VL是Liquid AI发布的新一代视觉-语言基础模型,专为智能手机、笔记本电脑、可穿戴设备等各种硬件高效部署设计。它的GPU推理速度比同类模型快两倍,同时保持竞争性能,支持512×512像素原生分辨率图像处理。
Q2:LFM2-VL有哪两个版本?分别适用于什么场景?
A:LFM2-VL提供两个版本:LFM2-VL-450M是超高效模型,参数不到5亿,适用于资源极度受限环境;LFM2-VL-1.6B是更强大的模型,但仍足够轻量化,适合单GPU和设备端部署。
Q3:普通开发者如何获取使用LFM2-VL模型?
A:LFM2-VL模型现已在Hugging Face平台上提供,同时包含Colab中的示例微调代码。模型与Hugging Face transformers和TRL兼容,在定制的LFM1.0许可证下发布,允许在特定条件下商业使用。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。