Hugging Face:企业在不牺牲性能下降低AI成本的5种方法

企业普遍认为AI模型需要大量算力,但Hugging Face专家认为应该更智能地使用AI。五个关键策略包括:为特定任务选择合适规模的模型而非通用大模型;将效率设为默认选项,避免不必要的高成本计算模式;通过批处理和精度调整优化硬件利用;推广能耗透明度评级系统;重新思考"更多算力更好"的观念,专注于智能架构和优质数据而非简单扩大GPU集群规模。

企业似乎已经接受了一个基本事实:AI模型需要大量的计算资源,他们只需要想办法获得更多的计算能力。

但据Hugging Face的AI与气候负责人Sasha Luccioni表示,事情不必如此。如果有更智能的使用AI的方法呢?如果不是努力追求更多(通常是不必要的)计算资源和为其供电的方法,他们可以专注于提高模型性能和准确性呢?

最终,模型制造商和企业关注的是错误的问题:他们应该更智能地计算,而不是更努力或做更多,Luccioni说。

"我们目前正在欠开发更智能的做事方式,因为我们太盲目于:我们需要更多FLOPS,我们需要更多GPU,我们需要更多时间,"她说。

以下是来自Hugging Face的五个关键学习点,可以帮助各种规模的企业更高效地使用AI。

1:为任务选择合适大小的模型

避免对每个用例都默认使用巨大的通用模型。针对特定任务或精馏的模型在针对性工作负载的准确性方面可以匹配甚至超越更大的模型——成本更低,能源消耗更少。

实际上,Luccioni在测试中发现,特定任务模型使用的能源比通用模型少20到30倍。"因为这是一个可以做那一个任务的模型,而不是任何你扔给它的任务,这通常是大语言模型的情况,"她说。

精馏在这里是关键;一个完整的模型最初可以从头开始训练,然后为特定任务进行精炼。例如,DeepSeek R1"如此巨大,大多数组织无法承担使用它",因为你至少需要8个GPU,Luccioni指出。相比之下,精馏版本可以小10倍、20倍甚至30倍,并在单个GPU上运行。

总的来说,开源模型有助于提高效率,她指出,因为它们不需要从头开始训练。这与几年前形成对比,当时企业浪费资源是因为他们找不到需要的模型;如今,他们可以从基础模型开始,进行微调和适应。

"它提供了增量共享创新,而不是孤立的,每个人都在自己的数据集上训练模型,本质上在过程中浪费计算,"Luccioni说。

很明显,公司正在迅速对生成式AI感到幻灭,因为成本与收益尚不成比例。通用用例,如写邮件或转录会议记录,确实有帮助。然而,特定任务模型仍然需要"大量工作",因为开箱即用的模型不够用,而且成本更高,Luccioni说。

这是增值的下一个前沿。"很多公司确实想要完成特定任务,"Luccioni指出。"他们不想要AGI,他们想要特定智能。这就是需要弥合的差距。"

2. 让效率成为默认设置

在系统设计中采用"助推理论",设置保守的推理预算,限制始终开启的生成功能,并要求高成本计算模式需要选择加入。

在认知科学中,"助推理论"是一种行为变化管理方法,旨在微妙地影响人类行为。Luccioni指出,"经典例子"是在外卖中添加餐具:让人们决定是否需要塑料餐具,而不是每个订单自动包含,可以显著减少浪费。

"仅仅让人们选择加入某些东西而不是选择退出某些东西,实际上是改变人们行为的非常强大的机制,"Luccioni说。

默认机制也是不必要的,因为它们增加使用量,因此增加成本,因为模型做的工作比需要的更多。例如,在流行的搜索引擎如Google中,生成式AI摘要默认自动出现在顶部。Luccioni还指出,当她最近使用OpenAI的GPT-5时,模型在"非常简单的问题"上自动以完整推理模式工作。

"对我来说,这应该是例外,"她说。"比如,'生命的意义是什么',那么当然,我想要生成式AI摘要。但是对于'蒙特利尔的天气如何',或'我当地药房的营业时间是什么?'我不需要生成式AI摘要,但它是默认的。我认为默认模式应该是无推理。"

3. 优化硬件利用率

使用批处理;调整精度并为特定硬件代次微调批处理大小,以最小化浪费的内存和功耗。

例如,企业应该问自己:模型需要一直开着吗?人们会实时ping它,一次100个请求吗?在那种情况下,始终开启的优化是必要的,Luccioni指出。然而,在许多其他情况下,它不是;模型可以定期运行以优化内存使用,批处理可以确保最佳内存利用率。

"这有点像工程挑战,但是非常具体的挑战,所以很难说,'只是精馏所有模型',或'改变所有模型的精度',"Luccioni说。

在她最近的一项研究中,她发现批处理大小取决于硬件,甚至取决于具体类型或版本。从一个批处理大小增加到加一可能会增加能源使用,因为模型需要更多内存条。

"这是人们真的不会看的东西,他们只是想,'哦,我要最大化批处理大小',但它真的归结为调整所有这些不同的东西,突然间它超级高效,但它只在你的特定上下文中工作,"Luccioni解释道。

4. 激励能源透明度

当人们受到激励时总是有帮助的;为此,Hugging Face今年早些时候推出了AI能源评分。这是促进更多能源效率的新颖方式,利用1到5星评级系统,最高效的模型获得"五星"状态。

它可以被认为是"AI的能源之星",灵感来自可能即将废除的联邦项目,该项目设定了能源效率规格并为符合条件的设备贴上能源之星标志。

"几十年来,它真的是一个积极的动机,人们想要那个星级评级,对吧?"Luccioni说。"能源评分的类似东西会很棒。"

Hugging Face现在有一个排行榜,计划在9月份用新模型(DeepSeek、GPT-oss)更新,并持续每6个月或更早地进行更新,因为新模型变得可用。目标是模型构建者将把评级视为"荣誉徽章",Luccioni说。

5. 重新思考"更多计算更好"的心态

不要追求最大的GPU集群,而是从问题开始:"实现结果的最智能方式是什么?"对于许多工作负载,更智能的架构和更好策划的数据优于暴力扩展。

"我认为人们可能不需要他们认为需要的那么多GPU,"Luccioni说。她敦促企业重新思考GPU将完成的任务以及为什么需要它们,他们以前如何执行这些类型的任务,以及添加额外的GPU最终会给他们带来什么,而不是简单地追求最大的集群。

"这有点像这种竞争到底的竞赛,我们需要更大的集群,"她说。"这是思考你使用AI做什么,你需要什么技术,那需要什么?"

Q&A

Q1:什么是特定任务模型?它比通用模型有什么优势?

A:特定任务模型是专门为某一项任务设计和训练的AI模型,而不是像大语言模型那样能处理任何任务。据Hugging Face测试发现,特定任务模型使用的能源比通用模型少20到30倍,在针对性工作负载的准确性方面可以匹配甚至超越更大的通用模型,同时成本更低。

Q2:Hugging Face推出的AI能源评分是什么?有什么作用?

A:AI能源评分是Hugging Face推出的能源效率评级系统,采用1到5星评级,最高效的模型获得五星状态。它被称为"AI的能源之星",目标是激励模型构建者将评级视为"荣誉徽章",从而促进更多能源高效的AI模型开发。

Q3:企业如何优化AI模型的硬件利用率?

A:企业可以通过多种方式优化:使用批处理技术、调整模型精度、为特定硬件代次微调批处理大小来最小化内存和功耗浪费。还要考虑模型是否需要始终运行,对于不需要实时响应的场景,可以定期运行模型来优化内存使用。

来源:VentureBeat

0赞

好文章,需要你的鼓励

2025

08/19

17:03

分享

点赞

邮件订阅