当前的软件工具——从编译器到生产力应用程序——需要进行根本性的重新设计,以跟上以机器速度工作的人工智能智能体的步伐,Google和英伟达的首席科学家表示。
在最近于圣何塞举行的英伟达GTC 2026会议上,Google首席科学家Jeff Dean指出,虽然人类开发人员很少会为C编译器的启动时间感到困扰,但在智能体运行速度远超人类的世界中,传统工具将导致巨大的性能延迟。
Dean表示,编程工具已经在经历这种转变,商业应用程序也必须跟上。这将使智能体能够操作电子表格和文档以程序化方式提取信息。在与英伟达首席科学家Bill Dally就推进AI下一个前沿的广泛对话中,他解释了这一观点。
这次讨论为Google和英伟达的发展路线图提供了珍贵的洞察,展示了从提示-等待式AI向具备自我纠正、谈判甚至设计自己后继者能力的智能体系统的进步。
自主研发
对于Google来说,推进AI的下一个前沿意味着赋能模型作为自主的研发实验室。
当Dally询问Dean行业距离能够实验、整理数据并训练下一版本自己的AI模型还有多远时,虽然Dean承认这种能力"还不完全成熟",但他指出了神经架构搜索的出现,这允许用户自动化神经网络的设计。
"你可以用自然语言指定研究空间,比如'请探索有趣的新蒸馏算法,并尝试使用我们目前没有使用的信息',"Dean说。"它会去执行这些实验。这基本上是研究和生产力的超强力倍增器。"
实现这一目标需要模型突破训练限制。模型不是一次性在整个互联网数据上进行预训练,而是可以在某些环境中采取行动或预测答案,然后再回到学习状态,这将显著提高学习效率,Dean补充道。
光速推理
随着推理预计将占据大部分AI工作负载,英伟达正在积极针对通信延迟进行优化,以赋予AI智能体无需暂停就能"思考"的能力。
"当你深入到曲线的右侧,真正针对延迟进行优化时,事实证明大部分延迟都来自通信,"Dally说。"在英伟达,我们总是提到光速。"
为了减少对数字信号处理和错误纠正的需求,Dally透露英伟达正在试验简化的路由器架构,牺牲带宽——从每秒400千兆比特降至200千兆比特——以换取延迟改善。目标是将路由器延迟降至50纳秒以下。
"通过这样做,我可以看到我们以每秒1万到2万个Token的速度运行相对较大的模型,"他说。
不要移动数据
由于AI消耗大量能源,Dally提供了一个直接的解决方案来减少能源消耗:"不要移动数据。人们在笑,但我是认真的。这绝对是你必须要做的。"
Dally解释说,对低精度NVFP4操作进行乘加计算只消耗10飞焦耳的能量。然而,从外部内存拉取必要数据消耗的能量大约是这个数量的1000倍。
为了解决这个问题,英伟达正在探索先进的3D堆叠技术,物理融合内存和计算。"读取DRAM使用的大部分能量实际上不是读取DRAM本身——而是将比特从读取DRAM的位置移动到GPU引脚所在的位置,"Dally说。
"通过将DRAM直接堆叠在执行计算的GPU之上,我们可以获得一个数量级更多的带宽,同时每比特消耗更少的能量。这最终是相同的功率,但性能要高得多。"
除了硬件创新,驯服AI功耗危机还需要算法效率的大幅改进。"如果你能以更少的工作获得相同的精度,这也会减少能源消耗,"他补充道。
Dally强调了稀疏性——跳过对模型最终输出影响不大的数学参数计算的技术——作为功耗降低的巨大机会。英伟达在其Ampere架构中引入了二比一结构化稀疏性,当前的混合专家模型使用粗粒度稀疏性形式来节省计算。
然而,Dally警告说,追求更高级别的稀疏性会破坏使GPU如此高效的高度规则、可预测的计算模式。"当你破坏这种模式时,你需要更多的控制和数据路由来处理不规则性,"他说。
AI构建自己的基础设施
这种智能体的未来已经在英伟达和Google自己的工程团队中成型,AI正在设计下一代芯片。
Dean指出了Google在芯片设计中使用AI进行布局和布线的成功——引用其备受赞誉的AlphaChip研究——而Dally详细阐述了英伟达在其设计管道中使用AI的情况。
英伟达最成功的内部工具之一是NVCell,这是一个强化学习程序。每次公司转向新的半导体工艺时,工程师必须移植多达3000个单元的标准单元库。
"过去需要8人团队花费约10个月,"Dally说。"我们开发了一个基于强化学习的程序,结果实际上比人类设计更好。"
除了物理芯片布局,英伟达还部署了一个名为ChipNeMo的定制大语言模型来提升工程生产力。
ChipNeMo在英伟达专有硬件设计文档上训练,作为初级工程师的导师,节省了资深设计师解释特定芯片组件基本功能的时间。它还可以总结错误报告并自动将其路由到合适的设计师进行解决。
Dally希望AI最终能够自动化芯片开发中最耗时的部分。"我很希望能够简单地说,'给我设计一个新的GPU',然后我去滑雪几天,回来时就完成了,"他说,尽管他承认距离那个现实还很遥远。
即使那一天到来,Dally预期AI芯片设计师也会依赖一个主智能体来编排专门的子智能体,这些智能体相互协商来确定架构,复制人类工程师今天举行的会议。
Q&A
Q1:为什么传统软件工具无法适应AI智能体的工作速度?
A:因为AI智能体运行速度远超人类,而传统工具如编译器、生产力应用程序的启动时间和响应延迟对人类来说不是问题,但会在智能体高速操作时造成巨大的性能瓶颈。因此需要根本性重新设计来匹配机器速度。
Q2:AI模型如何实现自主研发能力?
A:通过神经架构搜索技术,模型可以用自然语言指定研究空间,自动进行实验、整理数据并训练下一版本。模型需要突破传统训练限制,在环境中采取行动或预测答案后再回到学习状态,显著提高学习效率。
Q3:英伟达如何解决AI计算中的能耗问题?
A:主要策略是"不要移动数据",因为数据移动消耗的能量是计算本身的1000倍。英伟达通过3D堆叠技术将内存直接堆叠在GPU之上,减少数据移动距离,同时探索稀疏性技术跳过不重要的计算来降低能耗。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。