NVIDIA发布Nemotron 3 Nano Omni多模态模型，智能体推理效率提升9倍

NVIDIA正式推出Nemotron 3 Nano Omni，这是一款开源全模态推理模型，将视觉、音频与语言能力整合于单一系统，采用30B-A3B混合专家架构，支持文本、图像、音频、视频及文档等多种输入。相比其他开源全模态模型，其吞吐量提升9倍，同时在复杂文档理解、视频及音频处理等六项评测榜单中位居前列。该模型已于2026年4月28日通过Hugging Face等25个以上平台开放使用。

当前AI智能体系统通常需要同时调用视觉、语音和语言等多个独立模型，在模型之间传递数据时会造成时间损耗和上下文断裂。

NVIDIA近日正式发布Nemotron 3 Nano Omni开源多模态模型，将上述能力整合至单一系统，使智能体能够在视频、音频、图像和文本之间实现更快速、更智能的跨模态推理响应。该模型为企业和开发者提供了一条构建高效、精准多模态AI智能体的落地路径，同时具备完整的部署灵活性与控制能力。

Nemotron 3 Nano Omni在开源多模态模型领域树立了全新的效率标杆，以领先的精度和较低的成本，在复杂文档智能、视频理解和音频理解六项榜单中位居首位。

核心概览

模型定位：开源全模态推理模型，是同类模型中效率最高、精度领先的开源多模态模型。

支持输入：文本、图像、音频、视频、文档、图表及图形界面；输出：文本。

目标用户：需要多模态感知子智能体的企业及开发者，适用于构建快速可靠的智能体系统。

工作方式：作为智能体系统的"眼睛和耳朵"，可与Nemotron 3 Super、Ultra及其他专有模型协同运作。

核心价值：在保持相同交互响应能力的前提下，比同类开源全模态模型吞吐量高出9倍，实现更低成本与更强可扩展性。

模型架构：30B-A3B混合MoE架构，集成Conv3D、EVS，支持256K上下文窗口。

发布时间：2026年4月28日，通过Hugging Face、OpenRouter、build.nvidia.com及25个以上合作伙伴平台提供。

目前已有多家AI与软件公司率先采用Nemotron 3 Nano Omni，包括Aible、Applied Scientific Intelligence（ASI）、Eka Care、富士康、H Company、Palantir和Pyler；戴尔科技、DocuSign、Infosys、K-Dense、Lila、Oracle和Zefr也在对该模型进行评估。

H Company首席执行官Gautier Cloix表示："构建实用的智能体，不能等待数秒才能完成屏幕内容的解析。基于Nemotron 3 Nano Omni，我们的智能体可以快速解析全高清屏幕录制内容——这在以前根本不具备实用性。这不仅是速度上的提升，更是智能体感知和实时交互数字环境方式的根本性变革。"

多模态融合，驱动智能体效率跃升

以客服AI智能体为例，它需要同时处理屏幕录制、分析上传的通话音频并查询数据日志；金融领域的智能体则需解析PDF、电子表格、图表和语音备注。目前，大多数智能体系统依靠独立的视觉、语音和语言模型分别完成这些任务，这种方式不仅因多次推理调用而增加延迟，还会造成跨模态上下文碎片化，随着时间推移持续推高成本并引入误差。

Nemotron 3 Nano Omni在30B-A3B混合专家架构中融合了视觉编码器与音频编码器，消除了对独立感知模型的依赖，从而在规模化推理中大幅提升效率。结合强大的多模态感知精度，该模型在保持相同交互响应能力的条件下，吞吐量比同类开源全模态模型提升9倍，实现更低成本与更强可扩展性，同时不牺牲响应速度和输出质量。

在智能体系统中，Nemotron 3 Nano Omni可与专有云端模型或其他NVIDIA Nemotron开源模型协同工作，例如面向高频执行任务的Nemotron 3 Super，以及面向复杂规划任务的Nemotron 3 Ultra，共同驱动计算机操作、文档智能和音视频推理等智能体工作流中的子智能体。

计算机操作智能体：Nemotron 3 Nano Omni为图形用户界面导航智能体提供感知循环能力，支持对屏幕内容的实时推理及界面状态的持续理解。H Company基于该模型的最新计算机操作智能体采用1920×1080像素的原生输入分辨率，实现高保真视觉推理。在OSWorld基准测试的初步评估中，该集成方案在复杂图形界面导航能力上实现了显著提升，充分发挥了Nemotron 3 Nano Omni处理超高分辨率图像的优势。

文档智能：能够解析文档、图表、表格、截图及混合媒体输入，使智能体在视觉结构与文本内容之间实现连贯推理，对企业分析和合规工作流具有重要价值。

音视频理解：面向客户服务、研究和监控工作流，Nemotron 3 Nano Omni能够维持音视频上下文的连贯性，将语音内容、画面信息与文字记录整合为统一的推理流，而非彼此割裂的摘要片段。

开放部署，全面支持企业落地

Nemotron 3 Nano Omni以开放权重、数据集和训练技术的方式发布，为组织提供完整的透明度和定制化控制能力。开发者可借助NVIDIA NeMo工具进行特定领域的定制、评估与优化。由于Nemotron系列模型采用开放架构，组织可在满足监管、数据主权或数据本地化要求的环境中灵活部署。

Nemotron 3系列模型（包含Nano、Super和Ultra）在过去一年的累计下载量已超过5000万次。Omni的推出进一步将该系列的能力扩展至多模态和智能体领域。

该模型现已在Hugging Face、OpenRouter和build.nvidia.com以NVIDIA NIM微服务形式上线，并通过NVIDIA云合作伙伴、推理平台及云服务提供商的广泛生态提供支持。其开放轻量的架构支持从NVIDIA Jetson模块、NVIDIA DGX Spark和DGX Station等本地系统到数据中心和云环境的一致化部署。

Q&A

Q1：Nemotron 3 Nano Omni是什么？主要能做什么？

A：Nemotron 3 Nano Omni是NVIDIA发布的一款开源全模态推理模型，支持文本、图像、音频、视频、文档、图表和图形界面等多种输入。它将视觉、语音和语言能力整合到单一系统中，消除了对多个独立感知模型的依赖，在保持高精度的同时，比同类开源全模态模型的吞吐量提升9倍，特别适合用于构建计算机操作、文档智能和音视频推理等智能体工作流。

Q2：Nemotron 3 Nano Omni为什么比其他多模态模型效率更高？

A：传统智能体系统使用独立的视觉、语音和语言模型分别处理任务，导致多次推理调用增加延迟、上下文碎片化、成本上升。Nemotron 3 Nano Omni采用30B-A3B混合专家架构，将视觉编码器与音频编码器融合在同一模型中，减少了模型间数据传递的开销，在相同交互响应能力下实现9倍吞吐量提升，同时降低成本、提升可扩展性。

Q3：Nemotron 3 Nano Omni如何获取和部署？

A：Nemotron 3 Nano Omni于2026年4月28日正式发布，可通过Hugging Face、OpenRouter和build.nvidia.com以NVIDIA NIM微服务形式获取，同时支持25个以上合作伙伴平台。该模型采用开放权重，支持从NVIDIA Jetson模块、DGX Spark等本地设备到数据中心和云环境的灵活部署，企业可使用NVIDIA NeMo工具进行定制化开发。

来源：NVIDIA

0赞

好文章，需要你的鼓励

NVIDIA发布Nemotron 3 Nano Omni多模态模型，智能体推理效率提升9倍

来源：NVIDIA

2026

04/29

09:13

分享

点赞

特斯拉疑似删除FSD证据，卡特彼勒加速电动化布局，高压系统技术培训刻不容缓

智能体网络流量首超真人访问，"死亡互联网"理论引发新争议

Mentium Technologies Luna-R1 AI芯片入选ET-01星座任务，完成多星部署里程碑

汤道生×姚顺雨：腾讯AI下半场，拼的是“模型×产品”系统能力

AI驱动网络犯罪数量飙升，勒索软件受害者年增389%：Fortinet 发布2026年全球威胁态势研究报告

Inbolt将在Automate展会发布视觉驱动机器人编程新功能

笔记本电脑深度清洁指南：内外兼修焕然一新

加利福尼亚州城市通过全美首个由选民投票决定的数据中心禁令

柴油替代方案：AI数据中心如何利用燃气引擎与蒸汽涡轮供电

AI定义汽车时代，车载以太网可靠性面临全新挑战

安全算法的持续更新正变得愈发困难

轨道数据中心本质上是功能强化的卫星

英国政府主权AI基金投资自主学习AI公司

软件开发的未来：AI时代，代码将不再由人来写

谷歌翻译迎来20周年，推出全新发音练习功能

iOS 27 将搭载全新 AI 驱动照片编辑功能

制造业仿真优先时代已至：NVIDIA Omniverse如何重塑工厂智能化

初创公司Lovelace推出上下文AI引擎，专攻关键任务场景

欧盟要求谷歌向竞争对手开放Android AI平台

Otter推出企业搜索新功能，打通多平台数据壁垒

Red Hat工程师推出Tank OS，让企业级OpenClaw部署更安全

微软携手Anthropic Mythos强化安全软件开发流程

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: