利用合成数据与微调提升视觉AI智能体精度的三种工作流

视觉AI智能体正被广泛应用于工厂、城市、仓储等场景，将视频数据转化为运营洞察。本文介绍三种基于NVIDIA Metropolis与Omniverse的可复用工作流：利用合成缺陷图像生成技能扩充训练数据、借助视频数据增强技能丰富场景覆盖，以及通过TAO工具进行模型微调。实际案例显示，Roboflow与康宁合作中模型精度达95%，Linker Vision在高雄将开发工时缩短85%，DeepHow在富士康生产线实现99%任务级准确率。

视觉AI智能体正在成为一种实用方式，能够自动将来自工厂、城市、仓库和交通系统的视频数据转化为可操作的情报。

随着越来越多的AI工作负载向数据生成端迁移，这一转变正在加速。Gartner预测，到2028年，超过三分之二的企业托管数据将在数据中心或云之外创建和处理；到2029年，全球超过三分之二的企业将部署边缘AI，而这一比例在2025年仅为10%。

然而，边缘数据的增加并不会自动带来更多智能。同一份Gartner报告显示，现有边缘数据中多达90%未经处理。要将这些数据转化为有价值的行动，需要能够理解视频、适应真实世界条件并将洞察连接到运营工作流的视觉AI智能体。这些智能体通常运行在摄像头、机器和传感器附近，模型必须在满足延迟、功耗、成本和连接要求的同时，适应特定站点的条件。

为构建此类智能体，开发者需要可重复的方式来生成训练数据、微调模型，并在边缘和云环境中部署智能体视频应用。

NVIDIA Metropolis智能体技能与蓝图为开发者提供了可复用的工作流，用于在整个生命周期内构建、运营和优化视觉AI智能体。

在仿真与合成数据方面，通用场景描述（OpenUSD）为描述、组合和复用3D世界提供了通用框架。基于OpenUSD构建的NVIDIA Omniverse库帮助团队构建仿真、合成数据生成和数字孪生工作流，对真实世界环境进行建模，并扩展光照、天气、交通模式、摄像角度、遮挡和罕见事件等场景覆盖范围。

迈向自主视觉智能体的三大挑战

随着各组织向自主视觉智能体迈进，通常会面临三类挑战：

数据缺口导致精度瓶颈：视觉AI智能体需要识别罕见缺陷、异常事件和变化中的环境。例如在制造业中，一个检测模型可能在常见划痕或凹陷上表现良好，但对训练数据中未出现的新型发丝裂纹却束手无策。

缺乏微调专业能力：一旦团队发现性能差距，改进模型并非简单的工作交接。微调需要标注数据集、训练配置、实验跟踪、评估，以及判断是否针对目标用例有所改善。许多构建视觉AI智能体的组织没有大型内部机器学习团队来快速管理该流程，尤其是在跨越多个站点、产品或摄像头视角的情况下。

智能体组装工作流复杂耗时：部署视觉AI智能体不仅仅是运行推理。开发者还需要将视频管道、AI模型、元数据、嵌入、索引、搜索、告警、报告和系统集成串联起来。针对特定环境定制该工作流需要大量时间和专业知识。若缺乏OpenUSD的共享场景描述层，团队往往需要在每次条件或部署站点发生变化时从头重建3D环境。

三种可复用工作流

NVIDIA智能体技能与蓝图——与基于OpenUSD的NVIDIA Omniverse仿真和合成数据生成、NVIDIA Metropolis模型开发和视频AI部署配合使用——为上述工作流的关键环节提供了可复用的起点：

缺陷图像生成技能有助于创建合成缺陷数据；视频数据增强技能有助于扩展场景覆盖范围；NVIDIA TAO技能支持模型微调；NVIDIA视频搜索与摘要（VSS）技能帮助将视频理解转化为可部署的工作流，涵盖告警、报告、流管理等功能。

开发者无需从头重建每个步骤，可利用这些可复用的工作流更快速地生成数据、改进模型并部署视觉AI智能体。

案例一：制造业缺陷检测

在制造业中，工厂防止缺陷越成功，就越难收集到足够的缺陷样本来训练下一个检测模型。

Roboflow正在将NVIDIA缺陷图像生成技能和NVIDIA Cosmos世界基础模型集成到其视觉AI平台中，在真实训练数据稀缺时为康宁等客户生成合成缺陷图像，从而在大幅减少每日人工图像审查需求的同时，实现接近完美的检测性能。

在与康宁光纤制造工程团队开展的基准测试中，一个仅用8张真实缺陷图像训练的模型——经NVIDIA缺陷图像生成技能生成的合成数据增强后——在最具挑战性的缺陷类别上达到了95%的平均精度和完美的召回率，超越了仅使用真实数据训练的基线模型，将原本需要多个季度的检测项目压缩至短短数天。

案例二：智慧城市视频推理

大规模城市运营充分说明了视觉AI智能体需要的是连通的工作流，而非单纯的推理能力。

Linker Vision正在利用NVIDIA Metropolis VSS蓝图构建智慧城市AI系统，以加速视频推理智能体在城市基础设施中的部署。在该工作流中，VSS技能将搜索、摘要、告警、报告和流管理等常见视频AI任务打包为可复用的智能体可执行工作流。

基于OpenUSD的NVIDIA Omniverse数字孪生帮助对城市环境进行建模，并测试视觉AI系统如何应对不同的交通模式、天气条件、紧急事件和基础设施变化。Linker Vision使用NVIDIA Cosmos进行视频数据增强，并使用NVIDIA TAO对Cosmos模型进行微调。

在高雄，Linker Vision利用VSS蓝图将开发工作量减少了85%，并将事件响应时间缩短了多达80%。其新推出的AI-GRID扩展方案在此基础上进一步采用NVIDIA NemoClaw蓝图实现安全智能体AI，支持城市和交通环境中的自主视频推理。

案例三：工业SOP验证

在工业环境中，挑战不仅在于检测视频帧中出现的内容，团队还需要智能体能够理解工作是否正确执行、将执行情况与标准操作规程进行对比，并在缺陷流向下游之前产生洞察。

在富士康，DeepHow的实时标准操作规程（SOP）验证智能体将NVIDIA Metropolis VSS蓝图作为智能体视频工作流层，用于跨运营环境的搜索、摘要和分析。NVIDIA Cosmos提供推理能力，帮助智能体在上下文中解读复杂的人类活动和工作序列，例如判断装配步骤是否正确执行以及顺序是否符合预期。

该解决方案已应用于NVIDIA GB300服务器生产线，将首次通过率提升了3%，在关键SOP步骤的微动作理解上达到99%的任务级精度，并通过帮助团队更早发现问题来减少重复返工。

Q&A

Q1：NVIDIA Metropolis VSS蓝图具体能做哪些事情？

A：NVIDIA Metropolis VSS（视频搜索与摘要）蓝图是一套可复用的工作流框架，能够将视频搜索、内容摘要、异常告警、报告生成和视频流管理等常见视频AI任务打包为智能体可执行的工作流。开发者无需从头构建每个环节，可直接基于该蓝图快速部署视觉AI智能体，应用场景涵盖智慧城市、工业检测、仓储物流等。

Q2：合成数据生成在制造业缺陷检测中效果如何？

A：效果非常显著。以康宁光纤制造为例，使用NVIDIA缺陷图像生成技能，仅用8张真实缺陷图像配合合成数据训练的模型，在最难识别的缺陷类别上达到了95%平均精度和100%召回率，超越了单纯使用真实数据训练的基线模型。更重要的是，这一成果将原本需要多个季度完成的检测项目压缩到了几天之内，大幅降低了对每日人工图像审查的依赖。

Q3：OpenUSD在视觉AI智能体开发中起什么作用？

A：OpenUSD（通用场景描述）在视觉AI智能体开发中扮演共享场景描述层的角色。它为描述、组合和复用3D世界提供了统一框架，使开发团队无需在每次部署站点或环境条件变化时从头重建3D场景。基于OpenUSD构建的NVIDIA Omniverse可帮助团队创建数字孪生，模拟光照、天气、摄像角度、遮挡等多种真实世界条件，从而生成更丰富的合成训练数据并测试智能体的适应能力。

来源：NVIDIA

0赞

好文章，需要你的鼓励

利用合成数据与微调提升视觉AI智能体精度的三种工作流

来源：NVIDIA

2026

07/01

17:49

分享

点赞

Anthropic发布Claude Sonnet 5大语言模型，编程能力与安全性双升级

Wayve以85亿美元估值启动8500万美元员工股权流动计划

遗留系统与数据缺口制约香港企业财资中心发展

美国要求OpenAI限制其最强大AI模型的访问权限

两党州长达成共识：数据中心建设费用不应转嫁给普通用户

北美电网夏季压力暂缓，但容量危机隐患未除

为270万人守护饮水安全：莫卡辛水电站发电机组更新改造全记录

加州最大光储项目Eland：清洁能源未来的范本

AI音乐视频生成：2026年十款自动化创作工具盘点

欧洲AI安全与网络滥用桌面推演的核心洞察

Rivian R2激光雷达实车曝光，外观设计优于同类车型

Anthropic推出专为制药研究人员设计的Claude Science

智能体AI的现状与未来：MIT教授深度解析

Claude Science发布：Anthropic押注工作流布局科学研究领域

Google最快最便宜图像模型Gemini 3.1 Flash Lite Image正式发布

Acti：将AI智能体直接嵌入智能手机键盘

Nvidia竞争对手Etched估值达50亿美元，AI芯片订单突破10亿美元

Claude Sonnet 5正式发布：更低成本运行AI智能体

智能体成为职场新同事，如何与AI协作取得最佳成果

美国61%的成年人现在使用AI获取健康信息，2024年这一比例仅为2%

谷歌发布速度更快、价格更低的图像生成模型

三位DeepMind前研究员将扑克AI技术应用于量化对冲基金交易

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: