视觉AI智能体正在成为一种实用方式,能够自动将来自工厂、城市、仓库和交通系统的视频数据转化为可操作的情报。
随着越来越多的AI工作负载向数据生成端迁移,这一转变正在加速。Gartner预测,到2028年,超过三分之二的企业托管数据将在数据中心或云之外创建和处理;到2029年,全球超过三分之二的企业将部署边缘AI,而这一比例在2025年仅为10%。
然而,边缘数据的增加并不会自动带来更多智能。同一份Gartner报告显示,现有边缘数据中多达90%未经处理。要将这些数据转化为有价值的行动,需要能够理解视频、适应真实世界条件并将洞察连接到运营工作流的视觉AI智能体。这些智能体通常运行在摄像头、机器和传感器附近,模型必须在满足延迟、功耗、成本和连接要求的同时,适应特定站点的条件。
为构建此类智能体,开发者需要可重复的方式来生成训练数据、微调模型,并在边缘和云环境中部署智能体视频应用。
NVIDIA Metropolis智能体技能与蓝图为开发者提供了可复用的工作流,用于在整个生命周期内构建、运营和优化视觉AI智能体。
在仿真与合成数据方面,通用场景描述(OpenUSD)为描述、组合和复用3D世界提供了通用框架。基于OpenUSD构建的NVIDIA Omniverse库帮助团队构建仿真、合成数据生成和数字孪生工作流,对真实世界环境进行建模,并扩展光照、天气、交通模式、摄像角度、遮挡和罕见事件等场景覆盖范围。
迈向自主视觉智能体的三大挑战
随着各组织向自主视觉智能体迈进,通常会面临三类挑战:
数据缺口导致精度瓶颈:视觉AI智能体需要识别罕见缺陷、异常事件和变化中的环境。例如在制造业中,一个检测模型可能在常见划痕或凹陷上表现良好,但对训练数据中未出现的新型发丝裂纹却束手无策。
缺乏微调专业能力:一旦团队发现性能差距,改进模型并非简单的工作交接。微调需要标注数据集、训练配置、实验跟踪、评估,以及判断是否针对目标用例有所改善。许多构建视觉AI智能体的组织没有大型内部机器学习团队来快速管理该流程,尤其是在跨越多个站点、产品或摄像头视角的情况下。
智能体组装工作流复杂耗时:部署视觉AI智能体不仅仅是运行推理。开发者还需要将视频管道、AI模型、元数据、嵌入、索引、搜索、告警、报告和系统集成串联起来。针对特定环境定制该工作流需要大量时间和专业知识。若缺乏OpenUSD的共享场景描述层,团队往往需要在每次条件或部署站点发生变化时从头重建3D环境。
三种可复用工作流
NVIDIA智能体技能与蓝图——与基于OpenUSD的NVIDIA Omniverse仿真和合成数据生成、NVIDIA Metropolis模型开发和视频AI部署配合使用——为上述工作流的关键环节提供了可复用的起点:
缺陷图像生成技能有助于创建合成缺陷数据;视频数据增强技能有助于扩展场景覆盖范围;NVIDIA TAO技能支持模型微调;NVIDIA视频搜索与摘要(VSS)技能帮助将视频理解转化为可部署的工作流,涵盖告警、报告、流管理等功能。
开发者无需从头重建每个步骤,可利用这些可复用的工作流更快速地生成数据、改进模型并部署视觉AI智能体。
案例一:制造业缺陷检测
在制造业中,工厂防止缺陷越成功,就越难收集到足够的缺陷样本来训练下一个检测模型。
Roboflow正在将NVIDIA缺陷图像生成技能和NVIDIA Cosmos世界基础模型集成到其视觉AI平台中,在真实训练数据稀缺时为康宁等客户生成合成缺陷图像,从而在大幅减少每日人工图像审查需求的同时,实现接近完美的检测性能。
在与康宁光纤制造工程团队开展的基准测试中,一个仅用8张真实缺陷图像训练的模型——经NVIDIA缺陷图像生成技能生成的合成数据增强后——在最具挑战性的缺陷类别上达到了95%的平均精度和完美的召回率,超越了仅使用真实数据训练的基线模型,将原本需要多个季度的检测项目压缩至短短数天。
案例二:智慧城市视频推理
大规模城市运营充分说明了视觉AI智能体需要的是连通的工作流,而非单纯的推理能力。
Linker Vision正在利用NVIDIA Metropolis VSS蓝图构建智慧城市AI系统,以加速视频推理智能体在城市基础设施中的部署。在该工作流中,VSS技能将搜索、摘要、告警、报告和流管理等常见视频AI任务打包为可复用的智能体可执行工作流。
基于OpenUSD的NVIDIA Omniverse数字孪生帮助对城市环境进行建模,并测试视觉AI系统如何应对不同的交通模式、天气条件、紧急事件和基础设施变化。Linker Vision使用NVIDIA Cosmos进行视频数据增强,并使用NVIDIA TAO对Cosmos模型进行微调。
在高雄,Linker Vision利用VSS蓝图将开发工作量减少了85%,并将事件响应时间缩短了多达80%。其新推出的AI-GRID扩展方案在此基础上进一步采用NVIDIA NemoClaw蓝图实现安全智能体AI,支持城市和交通环境中的自主视频推理。
案例三:工业SOP验证
在工业环境中,挑战不仅在于检测视频帧中出现的内容,团队还需要智能体能够理解工作是否正确执行、将执行情况与标准操作规程进行对比,并在缺陷流向下游之前产生洞察。
在富士康,DeepHow的实时标准操作规程(SOP)验证智能体将NVIDIA Metropolis VSS蓝图作为智能体视频工作流层,用于跨运营环境的搜索、摘要和分析。NVIDIA Cosmos提供推理能力,帮助智能体在上下文中解读复杂的人类活动和工作序列,例如判断装配步骤是否正确执行以及顺序是否符合预期。
该解决方案已应用于NVIDIA GB300服务器生产线,将首次通过率提升了3%,在关键SOP步骤的微动作理解上达到99%的任务级精度,并通过帮助团队更早发现问题来减少重复返工。
Q&A
Q1:NVIDIA Metropolis VSS蓝图具体能做哪些事情?
A:NVIDIA Metropolis VSS(视频搜索与摘要)蓝图是一套可复用的工作流框架,能够将视频搜索、内容摘要、异常告警、报告生成和视频流管理等常见视频AI任务打包为智能体可执行的工作流。开发者无需从头构建每个环节,可直接基于该蓝图快速部署视觉AI智能体,应用场景涵盖智慧城市、工业检测、仓储物流等。
Q2:合成数据生成在制造业缺陷检测中效果如何?
A:效果非常显著。以康宁光纤制造为例,使用NVIDIA缺陷图像生成技能,仅用8张真实缺陷图像配合合成数据训练的模型,在最难识别的缺陷类别上达到了95%平均精度和100%召回率,超越了单纯使用真实数据训练的基线模型。更重要的是,这一成果将原本需要多个季度完成的检测项目压缩到了几天之内,大幅降低了对每日人工图像审查的依赖。
Q3:OpenUSD在视觉AI智能体开发中起什么作用?
A:OpenUSD(通用场景描述)在视觉AI智能体开发中扮演共享场景描述层的角色。它为描述、组合和复用3D世界提供了统一框架,使开发团队无需在每次部署站点或环境条件变化时从头重建3D场景。基于OpenUSD构建的NVIDIA Omniverse可帮助团队创建数字孪生,模拟光照、天气、摄像角度、遮挡等多种真实世界条件,从而生成更丰富的合成训练数据并测试智能体的适应能力。
好文章,需要你的鼓励
超过140家金融、支付及科技公司,包括Visa、Stripe和贝莱德,联合支持推出名为Open USD(OUSD)的新稳定币,直接挑战市场领导者Tether和Circle。OUSD由独立机构Open Standard LLC运营,主打零费用、无限额铸造与赎回,且储备收益大部分归合作伙伴所有,而非由发行方独占。Mastercard、美国运通、谷歌、Shopify、Coinbase等巨头均已加入。Circle股价在消息公布后下跌约13%。
这项研究系统比较了四种AI图像分词策略在640000张星系图像上的表现,发现重建质量与物理属性预测能力之间存在根本性解耦,为天文基础模型的分词器选择提供了实验依据。
Anthropic正式推出中端大语言模型Claude Sonnet 5,其编程能力在SWE-Bench Pro和Terminal-Bench 2.1两项基准测试中分别提升5.1%和13.4%。该模型具备更强自主性,能主动核查输出结果,并在抵御恶意请求和提示注入攻击方面表现更优。Sonnet 5将成为Claude免费版和Pro版的默认模型,定价为每百万输入token 3美元。此外,此前因美国出口管制而暂停推出的Mythos 5和Fable 5模型,管制已解除,将于近期恢复访问。
阿里Qwen团队研究如何将大模型的规模化训练思路迁移到机器人操作领域,通过统一多机器人表示与38100小时数据预训练,让机器人在陌生场景和陌生机型上也能完成复杂操作任务。