如今AI应用已经无处不在,如何更好更快地开发出AI应用便成为日益重要的挑战。众所周知,不管是机器学习还是深度学习都需要训练样本进行模型构建,而在许多实际应用中,重新收集所需的训练数据并重建模型的代价是非常昂贵。
近日,NVIDIA发布了多个可直接用于生产的预训练模型和TAO工具套件3.0开发者测试版,以及DeepStream SDK 5.1。此次发布包括一系列新型预训练模型。它使开发人员能够使用NVIDIA预先训练好的模型,这些模型具有支持对话式AI应用的创新功能,提高了深度学习训练工作流程的效率和准确性,可提供更加强大的解决方案来加速开发者从训练到部署的整个过程。

举一反三的学习能力
目前,智能视觉和语音功能服务已经成为主流,几乎影响了我们日常生活的方方面面。AI 视频和音频分析正在增强从消费类产品到企业服务等各种应用,包括家用智能音箱、零售店中的智能自助服务终端或聊天机器人、工厂车间的交互式机器人、医院的智能患者监测系统以及智慧城市的自主交通解决方案。不过构建和部署这些解决方案需要完成大量技术工作,例如收集和采集相关数据集,以及为实现高精度、大规模部署时的实时性能和可管理性而对AI模型进行大量训练等。
在这种情况下,我们需要在任务域之间进行知识迁移(Knowledge Transfer)或迁移学习 (Transfer Learning),避免高代价的数据训练与标注工作。而迁移学习把一个领域(即源领域)的知识,迁移到另外一个领域(即目标领域),使得目标领域能够取得更好的学习效果。
作为一种机器学习方法,迁移学习把为任务A开发的模型作为初始点,重新使用在为任务B开发模型的过程中。由于被赋予了人类特有的举一反三的智慧,深度学习中在计算机视觉任务和自然语言处理任务中将预训练的模型作为新模型的起点是一种常用的方法。
利用第三方预先训练好的模型的好处是非常多的,比如不用自己构建训练数据进行模型旋律,节省IT建设投入,同时也不用团队成员学习众多的开源深度学习框架。虽然选择预先训练好的模型会带来诸多好处,但是这些模型经常存在一些问题:现成的模型在特定的应用领域中精度较低或者没有针对GPU进行优化等。
针对这些问题,NVIDIA TAO工具套件提供各种预训练AI模型和内置功能(例如迁移学习、裁剪、微调和量化感知训练)帮助AI应用开发者和软件开发者加速AI训练。开发者可以使用PeopleNet、VehicleMakeNet、TrafficCamNet、DashCamNet等专用模型为几种流行用例构建高精度AI。
加速端到端AI工作流程
如今,AI已不再仅仅只停留在研究阶段,而是已经被应用于各企业机构中,帮助它们解决实际问题。但是,开发和部署AI应用程序是一项具有挑战性的工作。对于开发者、初创公司和企业而言,从头开始创建一个模型不但耗时耗力,而且成本高昂。NVIDIA TAO工具套件是一个能够消除AI/DL框架复杂性,无需编码就能更快构建生产级预训练模型的AI工具包。TAO工具套件通过NVIDIA为常见AI任务开发的多用途生产级模型或者ResNet、VGG、FasterRCNN、RetinaNet和YOLOv3/v4等100多种神经网络架构组合,使用自己的数据对特定用例的模型进行微调。所有模型均可从NVIDIA NGC获得。

预训练模型加速了开发人员的深度学习训练过程,并且减少了大规模数据收集、标记和从零开始训练模型相关的成本。开发者选择NVIDIA提供的预先训练好的模型,然后结合自己场景或者用例的数据,就可以得到输出模型。迁移学习后得到的模型可以直接进入到深度学习应用/项目的部署阶段。
预训练模型和TAO工具套件 3.0(开发者测试版)提供了全新视觉AI预训练模型:车牌检测与识别、心率监测、手势识别、视线估计、情绪识别、人脸检测、面部特征点估计;通过自动语音识别(ASR)和自然语言处理(NLP)的预训练模型支持对话式AI用例;选择流行的网络架构进行训练,如EfficientNet、YoloV4和UNET;经过改进的PeopleNet模型可以检测困难场景,比如坐着的人和旋转/扭曲的物体等。

TAO工具套件包提供了端到端的深度学习工作流,与NVIDIA的产品实现了深度集成,在异构多GPU环境下模型训练或调整效果非常好,并且训练处的模型可以直接部署到Tesla、Jetson等产品上面,加速深度学习训练,更好地帮助企业快速上线AI应用。特别是其支持具有第三代张量核心的NVIDIA Ampere GPU,更好地确保性能表现。
结语
从自动驾驶汽车到药物发现,人工智能正成为主流,并迅速渗透到每个行业。为了加速端到端的AI工作流程,企业需要一个统一的平台来使更快地投入生产。NVIDIA一直致力于打造一个AI加速平台,这除了我们熟知的GPU硬件产品,也包括AI软件堆栈例如CUDA、NVIDIA深度学习库和人工智能软件等。如今,TAO工具套件新版本的推出可以更好地帮助AI开发者创造高性能产品、加快产品的上市速度。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。