利用合成数据与微调提升视觉AI智能体精度的三种工作流

视觉AI智能体正被广泛应用于工厂、城市、仓储等场景,将视频数据转化为运营洞察。本文介绍三种基于NVIDIA Metropolis与Omniverse的可复用工作流:利用合成缺陷图像生成技能扩充训练数据、借助视频数据增强技能丰富场景覆盖,以及通过TAO工具进行模型微调。实际案例显示,Roboflow与康宁合作中模型精度达95%,Linker Vision在高雄将开发工时缩短85%,DeepHow在富士康生产线实现99%任务级准确率。

视觉AI智能体正在成为一种实用方式,能够自动将来自工厂、城市、仓库和交通系统的视频数据转化为可操作的情报。

随着越来越多的AI工作负载向数据生成端迁移,这一转变正在加速。Gartner预测,到2028年,超过三分之二的企业托管数据将在数据中心或云之外创建和处理;到2029年,全球超过三分之二的企业将部署边缘AI,而这一比例在2025年仅为10%。

然而,边缘数据的增加并不会自动带来更多智能。同一份Gartner报告显示,现有边缘数据中多达90%未经处理。要将这些数据转化为有价值的行动,需要能够理解视频、适应真实世界条件并将洞察连接到运营工作流的视觉AI智能体。这些智能体通常运行在摄像头、机器和传感器附近,模型必须在满足延迟、功耗、成本和连接要求的同时,适应特定站点的条件。

为构建此类智能体,开发者需要可重复的方式来生成训练数据、微调模型,并在边缘和云环境中部署智能体视频应用。

NVIDIA Metropolis智能体技能与蓝图为开发者提供了可复用的工作流,用于在整个生命周期内构建、运营和优化视觉AI智能体。

在仿真与合成数据方面,通用场景描述(OpenUSD)为描述、组合和复用3D世界提供了通用框架。基于OpenUSD构建的NVIDIA Omniverse库帮助团队构建仿真、合成数据生成和数字孪生工作流,对真实世界环境进行建模,并扩展光照、天气、交通模式、摄像角度、遮挡和罕见事件等场景覆盖范围。

迈向自主视觉智能体的三大挑战

随着各组织向自主视觉智能体迈进,通常会面临三类挑战:

数据缺口导致精度瓶颈:视觉AI智能体需要识别罕见缺陷、异常事件和变化中的环境。例如在制造业中,一个检测模型可能在常见划痕或凹陷上表现良好,但对训练数据中未出现的新型发丝裂纹却束手无策。

缺乏微调专业能力:一旦团队发现性能差距,改进模型并非简单的工作交接。微调需要标注数据集、训练配置、实验跟踪、评估,以及判断是否针对目标用例有所改善。许多构建视觉AI智能体的组织没有大型内部机器学习团队来快速管理该流程,尤其是在跨越多个站点、产品或摄像头视角的情况下。

智能体组装工作流复杂耗时:部署视觉AI智能体不仅仅是运行推理。开发者还需要将视频管道、AI模型、元数据、嵌入、索引、搜索、告警、报告和系统集成串联起来。针对特定环境定制该工作流需要大量时间和专业知识。若缺乏OpenUSD的共享场景描述层,团队往往需要在每次条件或部署站点发生变化时从头重建3D环境。

三种可复用工作流

NVIDIA智能体技能与蓝图——与基于OpenUSD的NVIDIA Omniverse仿真和合成数据生成、NVIDIA Metropolis模型开发和视频AI部署配合使用——为上述工作流的关键环节提供了可复用的起点:

缺陷图像生成技能有助于创建合成缺陷数据;视频数据增强技能有助于扩展场景覆盖范围;NVIDIA TAO技能支持模型微调;NVIDIA视频搜索与摘要(VSS)技能帮助将视频理解转化为可部署的工作流,涵盖告警、报告、流管理等功能。

开发者无需从头重建每个步骤,可利用这些可复用的工作流更快速地生成数据、改进模型并部署视觉AI智能体。

案例一:制造业缺陷检测

在制造业中,工厂防止缺陷越成功,就越难收集到足够的缺陷样本来训练下一个检测模型。

Roboflow正在将NVIDIA缺陷图像生成技能和NVIDIA Cosmos世界基础模型集成到其视觉AI平台中,在真实训练数据稀缺时为康宁等客户生成合成缺陷图像,从而在大幅减少每日人工图像审查需求的同时,实现接近完美的检测性能。

在与康宁光纤制造工程团队开展的基准测试中,一个仅用8张真实缺陷图像训练的模型——经NVIDIA缺陷图像生成技能生成的合成数据增强后——在最具挑战性的缺陷类别上达到了95%的平均精度和完美的召回率,超越了仅使用真实数据训练的基线模型,将原本需要多个季度的检测项目压缩至短短数天。

案例二:智慧城市视频推理

大规模城市运营充分说明了视觉AI智能体需要的是连通的工作流,而非单纯的推理能力。

Linker Vision正在利用NVIDIA Metropolis VSS蓝图构建智慧城市AI系统,以加速视频推理智能体在城市基础设施中的部署。在该工作流中,VSS技能将搜索、摘要、告警、报告和流管理等常见视频AI任务打包为可复用的智能体可执行工作流。

基于OpenUSD的NVIDIA Omniverse数字孪生帮助对城市环境进行建模,并测试视觉AI系统如何应对不同的交通模式、天气条件、紧急事件和基础设施变化。Linker Vision使用NVIDIA Cosmos进行视频数据增强,并使用NVIDIA TAO对Cosmos模型进行微调。

在高雄,Linker Vision利用VSS蓝图将开发工作量减少了85%,并将事件响应时间缩短了多达80%。其新推出的AI-GRID扩展方案在此基础上进一步采用NVIDIA NemoClaw蓝图实现安全智能体AI,支持城市和交通环境中的自主视频推理。

案例三:工业SOP验证

在工业环境中,挑战不仅在于检测视频帧中出现的内容,团队还需要智能体能够理解工作是否正确执行、将执行情况与标准操作规程进行对比,并在缺陷流向下游之前产生洞察。

在富士康,DeepHow的实时标准操作规程(SOP)验证智能体将NVIDIA Metropolis VSS蓝图作为智能体视频工作流层,用于跨运营环境的搜索、摘要和分析。NVIDIA Cosmos提供推理能力,帮助智能体在上下文中解读复杂的人类活动和工作序列,例如判断装配步骤是否正确执行以及顺序是否符合预期。

该解决方案已应用于NVIDIA GB300服务器生产线,将首次通过率提升了3%,在关键SOP步骤的微动作理解上达到99%的任务级精度,并通过帮助团队更早发现问题来减少重复返工。

Q&A

Q1:NVIDIA Metropolis VSS蓝图具体能做哪些事情?

A:NVIDIA Metropolis VSS(视频搜索与摘要)蓝图是一套可复用的工作流框架,能够将视频搜索、内容摘要、异常告警、报告生成和视频流管理等常见视频AI任务打包为智能体可执行的工作流。开发者无需从头构建每个环节,可直接基于该蓝图快速部署视觉AI智能体,应用场景涵盖智慧城市、工业检测、仓储物流等。

Q2:合成数据生成在制造业缺陷检测中效果如何?

A:效果非常显著。以康宁光纤制造为例,使用NVIDIA缺陷图像生成技能,仅用8张真实缺陷图像配合合成数据训练的模型,在最难识别的缺陷类别上达到了95%平均精度和100%召回率,超越了单纯使用真实数据训练的基线模型。更重要的是,这一成果将原本需要多个季度完成的检测项目压缩到了几天之内,大幅降低了对每日人工图像审查的依赖。

Q3:OpenUSD在视觉AI智能体开发中起什么作用?

A:OpenUSD(通用场景描述)在视觉AI智能体开发中扮演共享场景描述层的角色。它为描述、组合和复用3D世界提供了统一框架,使开发团队无需在每次部署站点或环境条件变化时从头重建3D场景。基于OpenUSD构建的NVIDIA Omniverse可帮助团队创建数字孪生,模拟光照、天气、摄像角度、遮挡等多种真实世界条件,从而生成更丰富的合成训练数据并测试智能体的适应能力。

来源:NVIDIA

0赞

好文章,需要你的鼓励

2026

07/01

17:49

分享

点赞

邮件订阅