调整GPU时钟频率可将大语言模型训练能耗降低14%

荷兰特文特大学研究团队发现，通过动态电压与频率调节技术（DVFS），在大语言模型训练过程中按GPU内核级别精细调整时钟频率，可在几乎不影响训练速度（仅慢0.6%）的前提下，节省高达14%的能耗。相较于此前按迭代阶段调频的粗粒度方案，该方法将调频精度细化至单个计算内核级别，显著提升了节能效果。团队目前正在开发可自动实现最优频率调节的工具。

OpenAI的第四代大语言模型GPT-4在训练过程中估计消耗了约50吉瓦时的电力，相当于5000户美国家庭一年的用电总量。这一数字来自2023年。此后，训练前沿大语言模型所需的计算资源只增不减，但具体的能耗数据却难以获取。

近日，荷兰特文特大学的一支研究团队证明，通过在计算过程中智能调整GPU的时钟频率，可以在不牺牲速度的前提下，将大语言模型训练所需的能耗降低多达14%。特文特大学博士候选人、该研究论文的第一作者Jeffrey Spaan上月在西西里岛卡塔尼亚举办的Computing Frontiers学术会议上发布了这一研究成果。

"我的研究方向是找出计算过程中的浪费现象，"Spaan表示，"这与硬件利用率不足的问题类似，但我们的思路不是优化软件以适配硬件，而是反过来优化硬件以适配软件。"

Spaan与合作者采用了一种名为动态电压频率调节（DVFS）的技术来实现这一目标。每块芯片（包括训练前沿模型常用的GPU）都至少使用一个时钟来协调计算操作，芯片中的每项运算都由时钟脉冲触发。时钟频率的高低决定了芯片的运行速度和功耗水平。

现代GPU拥有两个时钟，一个负责计算核心，另一个负责内存。当计算核心全力进行数值运算时，时钟频率会保持在较高水平以确保计算速度；而此时借助DVFS技术，内存时钟频率可以降低，从而减少功耗。从原理上看，直接关闭芯片的内存部分也是可行的，但GPU的设计并不支持通过软件控制这一开关，而且在运算中途重新开启也会耗费过多时间。同理，当计算核心等待从内存加载数据时，计算核心的时钟频率可以大幅降低，同时提升内存时钟频率。

DVFS技术早在20世纪90年代便已广为人知，但Spaan指出，此前的研究者未能将其有效应用于大语言模型训练，原因在于他们的方法要么导致计算速度大幅下降，要么粒度不够精细，无法取得显著的节能效果。

以往的DVFS尝试是在每轮训练迭代时调整频率。大语言模型的训练迭代由两部分组成：前向传播（数据按照当前权重在模型各层中正向流动）和反向传播（根据前向传播的结果逐层调整权重）。因此，过去的方法通常对前向传播和反向传播分别采用不同的固定频率值。

Spaan及其团队则将时钟频率的调整粒度进一步细化。GPU的工作任务被拆解为大量细小的计算单元，称为"内核（kernel）"。例如，一次向量乘法运算就可以构成一个内核，这些内核由GPU并行处理。在Spaan的方案中，深度神经网络单层的计算任务被拆分为约40个内核，通过在内核级别逐一调整时钟频率，团队得以挖掘出远超以往的节能潜力。

Spaan还指出，GPU本身也会在芯片内部系统检测到负载高低变化时自动执行DVFS。"有些人可能因此认为，直接让GPU自己处理就好，"他说，"但由于GPU无法预判接下来要运行哪些内核，只能进行实时的最优猜测，因此永远无法达到手动调节所能实现的节能效果。"这正是人工介入调整的价值所在。

研究团队以Nvidia RTX 3080 Ti GPU为实验平台，对拥有13亿参数的GPT-3-XL模型进行了训练实验。为节省时间，他们将研究重点集中在单层模型的训练上。在此条件下，他们找到了一套频率调节方案，可在训练时间仅延长0.6%的情况下实现14%的节能效果。模型的整体性能同时取决于计算速度和能耗水平。

不过，这一方法也面临一个现实挑战：降低时钟频率虽然比关闭/开启核心快得多，但仍非即时完成。在实验中，研究人员逐一对每个内核进行评估，并未将频率切换所需的时间纳入考量，因此14%的节能率属于理想情况下的最优结果。Spaan表示，这在实际应用中的影响程度因GPU型号而异。例如，基于Blackwell架构的新一代GPU拥有比旧型号快得多的频率切换速度，理论上能够充分释放该方法的节能潜力。

目前，研究团队正在开发一款工具，能够针对特定工作负载自动实现最优的频率调节方案。Spaan希望这一方法能够引起业界的足够关注并推动落地应用。"我们的目标是在不损失性能的前提下实现节能，"Spaan说，"在现实世界中，性能始终是最高优先级。"

Q&A

Q1：动态电压频率调节（DVFS）技术是什么原理？它为什么能节省大语言模型训练的能耗？

A：DVFS是一种通过动态调整芯片时钟频率和电压来控制功耗的技术。GPU拥有计算核心和内存两个时钟，当计算核心繁忙时可降低内存时钟频率减少功耗，当内存加载数据时可降低核心时钟频率。特文特大学的研究团队将调节粒度细化到单个内核级别，相比以往针对整个训练迭代调节的方案，能挖掘出更大的节能空间，最终实现了14%的节能效果。

Q2：这项研究的节能效果是在什么实验条件下取得的？是否适用于所有GPU？

A：研究团队在Nvidia RTX 3080 Ti GPU上，针对GPT-3-XL（13亿参数）模型的单层训练进行了实验，实现了训练时间仅延长0.6%、能耗降低14%的效果。但14%属于理想情况下的最优结果，因为实验未将频率切换时间纳入考量。实际节能效果因GPU型号而异，频率切换速度更快的新型GPU（如基于Blackwell架构的产品）更能充分发挥该方法的节能潜力。

Q3：GPU自身的自动DVFS与研究团队提出的手动调节方案有什么区别？

A：GPU内部系统可以根据负载变化自动执行DVFS，但由于GPU无法提前预知接下来要执行的内核类型，只能进行实时的"最优猜测"，因此节能效果有限。而研究团队的方案能够在任务执行前预判每个内核的计算与内存需求特征，从而提前做出精准的频率调节决策，节能效果远超GPU的自动调节机制。

来源：IEEE Spectrum - Computing

0赞

好文章，需要你的鼓励

调整GPU时钟频率可将大语言模型训练能耗降低14%

来源：IEEE Spectrum - Computing

2026

06/29

17:38

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

轨道数据中心为何比硅谷想象的更难实现

Tensordyne宣称新AI芯片性能大幅超越英伟达

撒丁岛的历史阴影：为何当地人抗拒清洁能源转型

福特重新雇用资深工程师，因AI未能达到质量标准

华尔街为何将美国存储芯片巨头美光视为下一个英伟达

追求AI智能的同时，别让数据控制权拱手相让

马斯克的轨道数据中心构想，软银孙正义并非唯一质疑者

AI驱动内存芯片需求暴涨，电子产品价格上涨将持续数年

Apple Vision Pro核心高管离职加盟OpenAI硬件团队

创业者确诊罕见癌症，用AI辅助治疗最终康复

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会