调整GPU时钟频率可将大语言模型训练能耗降低14%

荷兰特文特大学研究团队发现,通过动态电压与频率调节技术(DVFS),在大语言模型训练过程中按GPU内核级别精细调整时钟频率,可在几乎不影响训练速度(仅慢0.6%)的前提下,节省高达14%的能耗。相较于此前按迭代阶段调频的粗粒度方案,该方法将调频精度细化至单个计算内核级别,显著提升了节能效果。团队目前正在开发可自动实现最优频率调节的工具。

OpenAI的第四代大语言模型GPT-4在训练过程中估计消耗了约50吉瓦时的电力,相当于5000户美国家庭一年的用电总量。这一数字来自2023年。此后,训练前沿大语言模型所需的计算资源只增不减,但具体的能耗数据却难以获取。

近日,荷兰特文特大学的一支研究团队证明,通过在计算过程中智能调整GPU的时钟频率,可以在不牺牲速度的前提下,将大语言模型训练所需的能耗降低多达14%。特文特大学博士候选人、该研究论文的第一作者Jeffrey Spaan上月在西西里岛卡塔尼亚举办的Computing Frontiers学术会议上发布了这一研究成果。

"我的研究方向是找出计算过程中的浪费现象,"Spaan表示,"这与硬件利用率不足的问题类似,但我们的思路不是优化软件以适配硬件,而是反过来优化硬件以适配软件。"

Spaan与合作者采用了一种名为动态电压频率调节(DVFS)的技术来实现这一目标。每块芯片(包括训练前沿模型常用的GPU)都至少使用一个时钟来协调计算操作,芯片中的每项运算都由时钟脉冲触发。时钟频率的高低决定了芯片的运行速度和功耗水平。

现代GPU拥有两个时钟,一个负责计算核心,另一个负责内存。当计算核心全力进行数值运算时,时钟频率会保持在较高水平以确保计算速度;而此时借助DVFS技术,内存时钟频率可以降低,从而减少功耗。从原理上看,直接关闭芯片的内存部分也是可行的,但GPU的设计并不支持通过软件控制这一开关,而且在运算中途重新开启也会耗费过多时间。同理,当计算核心等待从内存加载数据时,计算核心的时钟频率可以大幅降低,同时提升内存时钟频率。

DVFS技术早在20世纪90年代便已广为人知,但Spaan指出,此前的研究者未能将其有效应用于大语言模型训练,原因在于他们的方法要么导致计算速度大幅下降,要么粒度不够精细,无法取得显著的节能效果。

以往的DVFS尝试是在每轮训练迭代时调整频率。大语言模型的训练迭代由两部分组成:前向传播(数据按照当前权重在模型各层中正向流动)和反向传播(根据前向传播的结果逐层调整权重)。因此,过去的方法通常对前向传播和反向传播分别采用不同的固定频率值。

Spaan及其团队则将时钟频率的调整粒度进一步细化。GPU的工作任务被拆解为大量细小的计算单元,称为"内核(kernel)"。例如,一次向量乘法运算就可以构成一个内核,这些内核由GPU并行处理。在Spaan的方案中,深度神经网络单层的计算任务被拆分为约40个内核,通过在内核级别逐一调整时钟频率,团队得以挖掘出远超以往的节能潜力。

Spaan还指出,GPU本身也会在芯片内部系统检测到负载高低变化时自动执行DVFS。"有些人可能因此认为,直接让GPU自己处理就好,"他说,"但由于GPU无法预判接下来要运行哪些内核,只能进行实时的最优猜测,因此永远无法达到手动调节所能实现的节能效果。"这正是人工介入调整的价值所在。

研究团队以Nvidia RTX 3080 Ti GPU为实验平台,对拥有13亿参数的GPT-3-XL模型进行了训练实验。为节省时间,他们将研究重点集中在单层模型的训练上。在此条件下,他们找到了一套频率调节方案,可在训练时间仅延长0.6%的情况下实现14%的节能效果。模型的整体性能同时取决于计算速度和能耗水平。

不过,这一方法也面临一个现实挑战:降低时钟频率虽然比关闭/开启核心快得多,但仍非即时完成。在实验中,研究人员逐一对每个内核进行评估,并未将频率切换所需的时间纳入考量,因此14%的节能率属于理想情况下的最优结果。Spaan表示,这在实际应用中的影响程度因GPU型号而异。例如,基于Blackwell架构的新一代GPU拥有比旧型号快得多的频率切换速度,理论上能够充分释放该方法的节能潜力。

目前,研究团队正在开发一款工具,能够针对特定工作负载自动实现最优的频率调节方案。Spaan希望这一方法能够引起业界的足够关注并推动落地应用。"我们的目标是在不损失性能的前提下实现节能,"Spaan说,"在现实世界中,性能始终是最高优先级。"

Q&A

Q1:动态电压频率调节(DVFS)技术是什么原理?它为什么能节省大语言模型训练的能耗?

A:DVFS是一种通过动态调整芯片时钟频率和电压来控制功耗的技术。GPU拥有计算核心和内存两个时钟,当计算核心繁忙时可降低内存时钟频率减少功耗,当内存加载数据时可降低核心时钟频率。特文特大学的研究团队将调节粒度细化到单个内核级别,相比以往针对整个训练迭代调节的方案,能挖掘出更大的节能空间,最终实现了14%的节能效果。

Q2:这项研究的节能效果是在什么实验条件下取得的?是否适用于所有GPU?

A:研究团队在Nvidia RTX 3080 Ti GPU上,针对GPT-3-XL(13亿参数)模型的单层训练进行了实验,实现了训练时间仅延长0.6%、能耗降低14%的效果。但14%属于理想情况下的最优结果,因为实验未将频率切换时间纳入考量。实际节能效果因GPU型号而异,频率切换速度更快的新型GPU(如基于Blackwell架构的产品)更能充分发挥该方法的节能潜力。

Q3:GPU自身的自动DVFS与研究团队提出的手动调节方案有什么区别?

A:GPU内部系统可以根据负载变化自动执行DVFS,但由于GPU无法提前预知接下来要执行的内核类型,只能进行实时的"最优猜测",因此节能效果有限。而研究团队的方案能够在任务执行前预判每个内核的计算与内存需求特征,从而提前做出精准的频率调节决策,节能效果远超GPU的自动调节机制。

来源:IEEE Spectrum - Computing

0赞

好文章,需要你的鼓励

2026

06/29

17:38

分享

点赞

邮件订阅