NVIDIA发布Nemotron 3 Nano Omni多模态模型,智能体推理效率提升9倍

NVIDIA正式推出Nemotron 3 Nano Omni,这是一款开源全模态推理模型,将视觉、音频与语言能力整合于单一系统,采用30B-A3B混合专家架构,支持文本、图像、音频、视频及文档等多种输入。相比其他开源全模态模型,其吞吐量提升9倍,同时在复杂文档理解、视频及音频处理等六项评测榜单中位居前列。该模型已于2026年4月28日通过Hugging Face等25个以上平台开放使用。

当前AI智能体系统通常需要同时调用视觉、语音和语言等多个独立模型,在模型之间传递数据时会造成时间损耗和上下文断裂。

NVIDIA近日正式发布Nemotron 3 Nano Omni开源多模态模型,将上述能力整合至单一系统,使智能体能够在视频、音频、图像和文本之间实现更快速、更智能的跨模态推理响应。该模型为企业和开发者提供了一条构建高效、精准多模态AI智能体的落地路径,同时具备完整的部署灵活性与控制能力。

Nemotron 3 Nano Omni在开源多模态模型领域树立了全新的效率标杆,以领先的精度和较低的成本,在复杂文档智能、视频理解和音频理解六项榜单中位居首位。

核心概览

模型定位:开源全模态推理模型,是同类模型中效率最高、精度领先的开源多模态模型。

支持输入:文本、图像、音频、视频、文档、图表及图形界面;输出:文本。

目标用户:需要多模态感知子智能体的企业及开发者,适用于构建快速可靠的智能体系统。

工作方式:作为智能体系统的"眼睛和耳朵",可与Nemotron 3 Super、Ultra及其他专有模型协同运作。

核心价值:在保持相同交互响应能力的前提下,比同类开源全模态模型吞吐量高出9倍,实现更低成本与更强可扩展性。

模型架构:30B-A3B混合MoE架构,集成Conv3D、EVS,支持256K上下文窗口。

发布时间:2026年4月28日,通过Hugging Face、OpenRouter、build.nvidia.com及25个以上合作伙伴平台提供。

目前已有多家AI与软件公司率先采用Nemotron 3 Nano Omni,包括Aible、Applied Scientific Intelligence(ASI)、Eka Care、富士康、H Company、Palantir和Pyler;戴尔科技、DocuSign、Infosys、K-Dense、Lila、Oracle和Zefr也在对该模型进行评估。

H Company首席执行官Gautier Cloix表示:"构建实用的智能体,不能等待数秒才能完成屏幕内容的解析。基于Nemotron 3 Nano Omni,我们的智能体可以快速解析全高清屏幕录制内容——这在以前根本不具备实用性。这不仅是速度上的提升,更是智能体感知和实时交互数字环境方式的根本性变革。"

多模态融合,驱动智能体效率跃升

以客服AI智能体为例,它需要同时处理屏幕录制、分析上传的通话音频并查询数据日志;金融领域的智能体则需解析PDF、电子表格、图表和语音备注。目前,大多数智能体系统依靠独立的视觉、语音和语言模型分别完成这些任务,这种方式不仅因多次推理调用而增加延迟,还会造成跨模态上下文碎片化,随着时间推移持续推高成本并引入误差。

Nemotron 3 Nano Omni在30B-A3B混合专家架构中融合了视觉编码器与音频编码器,消除了对独立感知模型的依赖,从而在规模化推理中大幅提升效率。结合强大的多模态感知精度,该模型在保持相同交互响应能力的条件下,吞吐量比同类开源全模态模型提升9倍,实现更低成本与更强可扩展性,同时不牺牲响应速度和输出质量。

在智能体系统中,Nemotron 3 Nano Omni可与专有云端模型或其他NVIDIA Nemotron开源模型协同工作,例如面向高频执行任务的Nemotron 3 Super,以及面向复杂规划任务的Nemotron 3 Ultra,共同驱动计算机操作、文档智能和音视频推理等智能体工作流中的子智能体。

计算机操作智能体:Nemotron 3 Nano Omni为图形用户界面导航智能体提供感知循环能力,支持对屏幕内容的实时推理及界面状态的持续理解。H Company基于该模型的最新计算机操作智能体采用1920×1080像素的原生输入分辨率,实现高保真视觉推理。在OSWorld基准测试的初步评估中,该集成方案在复杂图形界面导航能力上实现了显著提升,充分发挥了Nemotron 3 Nano Omni处理超高分辨率图像的优势。

文档智能:能够解析文档、图表、表格、截图及混合媒体输入,使智能体在视觉结构与文本内容之间实现连贯推理,对企业分析和合规工作流具有重要价值。

音视频理解:面向客户服务、研究和监控工作流,Nemotron 3 Nano Omni能够维持音视频上下文的连贯性,将语音内容、画面信息与文字记录整合为统一的推理流,而非彼此割裂的摘要片段。

开放部署,全面支持企业落地

Nemotron 3 Nano Omni以开放权重、数据集和训练技术的方式发布,为组织提供完整的透明度和定制化控制能力。开发者可借助NVIDIA NeMo工具进行特定领域的定制、评估与优化。由于Nemotron系列模型采用开放架构,组织可在满足监管、数据主权或数据本地化要求的环境中灵活部署。

Nemotron 3系列模型(包含Nano、Super和Ultra)在过去一年的累计下载量已超过5000万次。Omni的推出进一步将该系列的能力扩展至多模态和智能体领域。

该模型现已在Hugging Face、OpenRouter和build.nvidia.com以NVIDIA NIM微服务形式上线,并通过NVIDIA云合作伙伴、推理平台及云服务提供商的广泛生态提供支持。其开放轻量的架构支持从NVIDIA Jetson模块、NVIDIA DGX Spark和DGX Station等本地系统到数据中心和云环境的一致化部署。

Q&A

Q1:Nemotron 3 Nano Omni是什么?主要能做什么?

A:Nemotron 3 Nano Omni是NVIDIA发布的一款开源全模态推理模型,支持文本、图像、音频、视频、文档、图表和图形界面等多种输入。它将视觉、语音和语言能力整合到单一系统中,消除了对多个独立感知模型的依赖,在保持高精度的同时,比同类开源全模态模型的吞吐量提升9倍,特别适合用于构建计算机操作、文档智能和音视频推理等智能体工作流。

Q2:Nemotron 3 Nano Omni为什么比其他多模态模型效率更高?

A:传统智能体系统使用独立的视觉、语音和语言模型分别处理任务,导致多次推理调用增加延迟、上下文碎片化、成本上升。Nemotron 3 Nano Omni采用30B-A3B混合专家架构,将视觉编码器与音频编码器融合在同一模型中,减少了模型间数据传递的开销,在相同交互响应能力下实现9倍吞吐量提升,同时降低成本、提升可扩展性。

Q3:Nemotron 3 Nano Omni如何获取和部署?

A:Nemotron 3 Nano Omni于2026年4月28日正式发布,可通过Hugging Face、OpenRouter和build.nvidia.com以NVIDIA NIM微服务形式获取,同时支持25个以上合作伙伴平台。该模型采用开放权重,支持从NVIDIA Jetson模块、DGX Spark等本地设备到数据中心和云环境的灵活部署,企业可使用NVIDIA NeMo工具进行定制化开发。

来源:NVIDIA

0赞

好文章,需要你的鼓励

2026

04/29

09:13

分享

点赞

邮件订阅