当比尔·戴利(Bill Dally)在2009年加入英伟达研究实验室时,这里只有大约十几名员工,主要专注于光线追踪——一种计算机图形学中使用的渲染技术。
这个曾经规模很小的研究实验室现在雇佣了400多名员工,帮助英伟达从90年代的游戏GPU初创公司转变为推动人工智能繁荣的4万亿美元公司。现在,该公司的研究实验室将目标锁定在开发支持机器人技术和AI所需的技术上。实验室的一些研究成果已经开始应用到产品中。该公司周一发布了一套新的世界AI模型、库和其他面向机器人开发者的基础设施。
现任英伟达首席科学家的戴利,从2003年开始在斯坦福大学工作期间为英伟达提供咨询服务。几年后,当他准备从斯坦福大学计算机科学系主任职位上退下来并计划休假时,英伟达有了不同的想法。
当时负责研究实验室的大卫·柯克(David Kirk)和英伟达首席执行官黄仁勋认为,在研究实验室担任更永久的职位是更好的选择。戴利告诉TechCrunch,两人对他为什么应该加入英伟达研究实验室进行了"全方位的游说",最终说服了他。
"这最终成为了我的兴趣和才能的完美契合,"戴利说。"我认为每个人都在寻找生活中能够为世界做出最大贡献的地方。对我来说,这个地方无疑就是英伟达。"
当戴利在2009年接管实验室时,扩张是首要任务。研究人员立即开始在光线追踪之外的领域工作,包括电路设计和VLSI(超大规模集成),这是一个将数百万个晶体管组合在单个芯片上的过程。
从那时起,研究实验室就没有停止过扩张。
"我们试图弄清楚什么对公司最有积极影响,因为我们不断看到令人兴奋的新领域,但其中一些,虽然做得很好,但我们很难说在这方面能否取得巨大成功,"戴利说。
有一段时间,重点是为人工智能构建更好的GPU。英伟达很早就预见到了未来的AI繁荣,并在2010年开始尝试AI GPU的想法——比当前的AI热潮提前了十多年。
"我们说这太令人惊奇了,这将彻底改变世界,"戴利说。"我们必须开始加倍投入,当我告诉黄仁勋时,他相信了。我们开始专门为此设计GPU,开发大量支持软件,与世界各地从事这项工作的研究人员合作,这远在它明显相关之前。"
物理AI焦点
现在,随着英伟达在AI GPU市场占据主导地位,这家科技公司开始寻求AI数据中心之外的新需求领域。这种寻求使英伟达转向了物理AI和机器人技术。
"我认为机器人最终将成为世界上的重要角色,我们希望基本上成为所有机器人的大脑制造商,"戴利说。"为了做到这一点,我们需要开始开发关键技术。"
这就是英伟达AI研究副总裁桑雅·菲德勒(Sanja Fidler)的用武之地。菲德勒于2018年加入英伟达研究实验室。当时,她已经在麻省理工学院与一个学生团队一起研究机器人仿真模型。当她在一次研究人员招待会上向黄仁勋介绍他们正在进行的工作时,他很感兴趣。
"我无法抗拒加入,"菲德勒在接受TechCrunch采访时说。"这是一个很好的主题契合,同时也是很好的文化契合。黄仁勋告诉我,来和我一起工作,不是为我们工作。"
她加入英伟达后,开始在多伦多创建一个名为Omniverse的研究实验室,这是英伟达的一个平台,专注于为物理AI构建仿真。
构建这些仿真世界的第一个挑战是找到必要的3D数据,菲德勒说。这包括找到适当数量的潜在图像供使用,以及构建将这些图像转换为仿真器可以使用的3D渲染所需的技术。
"我们投资了一种叫做可微分渲染的技术,它本质上使渲染适用于AI,"菲德勒说。"渲染意味着从3D到图像或视频,而我们希望它能够反向进行。"
世界模型
Omniverse在2021年发布了其将图像转换为3D模型的第一个版本GANverse3D。然后开始研究视频的相同过程。菲德勒说,他们使用来自机器人和自动驾驶汽车的视频,通过该公司于2022年首次宣布的Neuric神经重建引擎创建这些3D模型和仿真。
她补充说,这些技术是该公司在1月份CES上宣布的Cosmos世界AI模型系列的支柱。
现在,实验室专注于让这些模型更快。当你玩视频游戏或仿真时,你希望技术能够实时响应,菲德勒说,对于机器人,他们正在努力使反应时间更快。
"机器人不需要以与世界运作相同的时间、相同的方式观察世界,"菲德勒说。"它可以快100倍地观察。所以如果我们能让这个模型比今天快得多,它们对机器人或物理AI应用将极其有用。"
该公司在这个目标上不断取得进展。英伟达周一在SIGGRAPH计算机图形会议上宣布了一系列新的世界AI模型,旨在创建可用于训练机器人的合成数据。英伟达还宣布了面向机器人开发者的新库和基础设施软件。
尽管取得了进展——以及当前关于机器人,特别是人形机器人的炒作——英伟达研究团队仍然保持现实态度。
戴利和菲德勒都表示,行业距离在家中拥有人形机器人至少还有几年时间,菲德勒将其与自动驾驶汽车的炒作和时间线进行了比较。
"我们正在取得巨大进展,我认为AI确实是这里的推动者,"戴利说。"从用于机器人感知的视觉AI开始,然后是生成式AI,这对任务和运动规划以及操作极其有价值。随着我们解决每一个小问题,随着我们用来训练网络的数据量增长,这些机器人将会发展。"
Q&A
Q1:英伟达研究实验室是如何从十几个人发展到400多人的?
A:2009年比尔·戴利接管实验室时,扩张是首要任务。研究人员立即开始在光线追踪之外的领域工作,包括电路设计和VLSI。实验室不断寻求能为公司带来最大积极影响的新领域,特别是在AI GPU和物理AI方面的前瞻性投资。
Q2:英伟达为什么要专注于物理AI和机器人技术?
A:随着英伟达在AI GPU市场占据主导地位,公司开始寻求AI数据中心之外的新需求领域。戴利表示"机器人最终将成为世界上的重要角色,我们希望基本上成为所有机器人的大脑制造商",因此需要提前开发关键技术。
Q3:英伟达的Cosmos世界AI模型有什么作用?
A:Cosmos是英伟达基于可微分渲染技术开发的世界AI模型系列,能够将图像和视频转换为3D模型和仿真。这些技术可以创建合成数据来训练机器人,让机器人能够更快地理解和响应现实世界,反应速度可以比现实世界快100倍。
好文章,需要你的鼓励
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
医疗信息管理平台Predoc宣布获得3000万美元新融资,用于扩大运营规模并在肿瘤科、研究网络和虚拟医疗提供商中推广应用。该公司成立于2022年,利用人工智能技术提供端到端平台服务,自动化病历检索并整合为可操作的临床洞察。平台可实现病历检索速度提升75%,临床审查时间减少70%,旨在增强而非替代临床判断。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。