如今AI应用已经无处不在,如何更好更快地开发出AI应用便成为日益重要的挑战。众所周知,不管是机器学习还是深度学习都需要训练样本进行模型构建,而在许多实际应用中,重新收集所需的训练数据并重建模型的代价是非常昂贵。
近日,NVIDIA发布了多个可直接用于生产的预训练模型和TAO工具套件3.0开发者测试版,以及DeepStream SDK 5.1。此次发布包括一系列新型预训练模型。它使开发人员能够使用NVIDIA预先训练好的模型,这些模型具有支持对话式AI应用的创新功能,提高了深度学习训练工作流程的效率和准确性,可提供更加强大的解决方案来加速开发者从训练到部署的整个过程。
举一反三的学习能力
目前,智能视觉和语音功能服务已经成为主流,几乎影响了我们日常生活的方方面面。AI 视频和音频分析正在增强从消费类产品到企业服务等各种应用,包括家用智能音箱、零售店中的智能自助服务终端或聊天机器人、工厂车间的交互式机器人、医院的智能患者监测系统以及智慧城市的自主交通解决方案。不过构建和部署这些解决方案需要完成大量技术工作,例如收集和采集相关数据集,以及为实现高精度、大规模部署时的实时性能和可管理性而对AI模型进行大量训练等。
在这种情况下,我们需要在任务域之间进行知识迁移(Knowledge Transfer)或迁移学习 (Transfer Learning),避免高代价的数据训练与标注工作。而迁移学习把一个领域(即源领域)的知识,迁移到另外一个领域(即目标领域),使得目标领域能够取得更好的学习效果。
作为一种机器学习方法,迁移学习把为任务A开发的模型作为初始点,重新使用在为任务B开发模型的过程中。由于被赋予了人类特有的举一反三的智慧,深度学习中在计算机视觉任务和自然语言处理任务中将预训练的模型作为新模型的起点是一种常用的方法。
利用第三方预先训练好的模型的好处是非常多的,比如不用自己构建训练数据进行模型旋律,节省IT建设投入,同时也不用团队成员学习众多的开源深度学习框架。虽然选择预先训练好的模型会带来诸多好处,但是这些模型经常存在一些问题:现成的模型在特定的应用领域中精度较低或者没有针对GPU进行优化等。
针对这些问题,NVIDIA TAO工具套件提供各种预训练AI模型和内置功能(例如迁移学习、裁剪、微调和量化感知训练)帮助AI应用开发者和软件开发者加速AI训练。开发者可以使用PeopleNet、VehicleMakeNet、TrafficCamNet、DashCamNet等专用模型为几种流行用例构建高精度AI。
加速端到端AI工作流程
如今,AI已不再仅仅只停留在研究阶段,而是已经被应用于各企业机构中,帮助它们解决实际问题。但是,开发和部署AI应用程序是一项具有挑战性的工作。对于开发者、初创公司和企业而言,从头开始创建一个模型不但耗时耗力,而且成本高昂。NVIDIA TAO工具套件是一个能够消除AI/DL框架复杂性,无需编码就能更快构建生产级预训练模型的AI工具包。TAO工具套件通过NVIDIA为常见AI任务开发的多用途生产级模型或者ResNet、VGG、FasterRCNN、RetinaNet和YOLOv3/v4等100多种神经网络架构组合,使用自己的数据对特定用例的模型进行微调。所有模型均可从NVIDIA NGC获得。
预训练模型加速了开发人员的深度学习训练过程,并且减少了大规模数据收集、标记和从零开始训练模型相关的成本。开发者选择NVIDIA提供的预先训练好的模型,然后结合自己场景或者用例的数据,就可以得到输出模型。迁移学习后得到的模型可以直接进入到深度学习应用/项目的部署阶段。
预训练模型和TAO工具套件 3.0(开发者测试版)提供了全新视觉AI预训练模型:车牌检测与识别、心率监测、手势识别、视线估计、情绪识别、人脸检测、面部特征点估计;通过自动语音识别(ASR)和自然语言处理(NLP)的预训练模型支持对话式AI用例;选择流行的网络架构进行训练,如EfficientNet、YoloV4和UNET;经过改进的PeopleNet模型可以检测困难场景,比如坐着的人和旋转/扭曲的物体等。
TAO工具套件包提供了端到端的深度学习工作流,与NVIDIA的产品实现了深度集成,在异构多GPU环境下模型训练或调整效果非常好,并且训练处的模型可以直接部署到Tesla、Jetson等产品上面,加速深度学习训练,更好地帮助企业快速上线AI应用。特别是其支持具有第三代张量核心的NVIDIA Ampere GPU,更好地确保性能表现。
结语
从自动驾驶汽车到药物发现,人工智能正成为主流,并迅速渗透到每个行业。为了加速端到端的AI工作流程,企业需要一个统一的平台来使更快地投入生产。NVIDIA一直致力于打造一个AI加速平台,这除了我们熟知的GPU硬件产品,也包括AI软件堆栈例如CUDA、NVIDIA深度学习库和人工智能软件等。如今,TAO工具套件新版本的推出可以更好地帮助AI开发者创造高性能产品、加快产品的上市速度。
好文章,需要你的鼓励
当AI遇到空间推理难题:最新研究揭示GPT-4等顶尖模型在传送门解谜和立体拼图中集体"挂科",复杂智能远比我们想象的更难实现。
大连理工大学和浙江大学研究团队提出MoR(Mixture of Reasoning)方法,通过将多种推理策略嵌入AI模型参数中,让AI能自主选择最适合的思考方式,无需人工设计专门提示词。该方法包含思维生成和数据集构建两阶段,实验显示MoR150模型性能显著提升,比基线模型提高2.2%-13.5%,为AI推理能力发展开辟新路径。
2025施耐德电气智算峰会上,全新EcoStruxure(TM) Energy Operation电力综合运营系统正式亮相,定位场站级智慧能源管理中枢,集技术领先性与本土适配性于一体。
剑桥大学研究团队开发了FreNBRDF技术,通过引入频率修正机制显著提升了计算机材质建模的精度。该技术采用球面谐波分析提取材质频率信息,结合自动编码器架构实现高质量材质重建与编辑。实验表明,FreNBRDF在多项指标上超越现有方法,特别在频率一致性方面改善近30倍,为游戏开发、影视制作、电商预览等领域提供了重要技术支撑。