IBM推出模块化AI开发工具,让大语言模型像软件一样构建

IBM Research发布Granite Libraries、Project Granite Switch及Mellea等工具,旨在将软件工程的模块化理念引入大语言模型开发。Granite Libraries提供RAG、安全及核心能力适配器,可显著提升模型在特定任务上的表现,如指令遵循准确率从51%跃升至84%。Granite Switch支持动态切换适配器,无需重训模型即可扩展能力。配合新发布的Granite 4.1系列模型,开发者可构建更高效、可预测的企业级AI系统。

立即体验以下工具:

Granite Switch:将适配器函数组合为可部署模型

Granite Libraries:浏览并下载用于RAG、安全性及核心能力的适配器函数

Mellea:以带类型的Python函数方式调用适配器函数

Granite 4.1模型:驱动上述一切的基础模型

就在不久前,AI领域的最先进成果还只是生成一张大致符合你描述的图片。而在随后的几年里,AI能力迎来了寒武纪式的爆发——如今的AI不仅能生成流畅无误的文本,还能运行关键的企业级工作流,甚至能够协调多个智能体自主驱动整个应用程序。

然而,尽管取得了如此多的进展,我们构建和使用AI模型的方式,与其他软件相比仍有很大差异。企业用户希望模型尽可能精准、高效,但对大多数开发者来说,实现这一目标依然困难重重。原因之一在于,到目前为止,要将AI模型拆解为传统软件中那种即插即用的构建模块,极为困难。

现代软件应用程序由多个相互协作的小型、独立模块组成,就像一个由许多乐高积木拼成的物体,而非一整块黏土。当某个地方出现问题时,工程师可以找到对应模块,修复、测试并重新部署,而无需改动其他代码。各项功能通过不同接口分离,不同团队可以分别开发各自的模块,针对规范进行测试,并在需要时进行替换。应用程序虽然服务于同一目的,但其内部绝非一团不可分割的整体。

当今的大语言模型是现代技术奇迹,能够轻松回答国家首都这类常识问题,也能解读财报内容。但所有能力都弥散在整个参数权重集合之中。若要改变模型对某种情境的响应方式,要么重新训练整个模型,要么编写极为详细而精准的提示词。这些方法都不够迅速,也都无法让多个团队像协作改进软件系统那样,共同提升AI模型的能力。

IBM研究院一直致力于将软件工程的严谨性与模块化引入大语言模型,这一方法被称为"生成式计算"。

"模型不过是附带数据的代码,只是数据量远多于代码量,"IBM研究院语言与多模态模型总监Luis Lastras表示,"我们还没有将软件工程的经验真正用于大语言模型——我们完全可以分开构建各个模块。"

IBM正在推出一套协同工具,让我们离生成式计算的愿景更进一步。软件模块化的理念催生了Granite Libraries——一套适配器集合,可针对特定任务对AI模型进行定制。它使模型能够快速执行定向任务,而无需重新训练整个模型。其核心概念是"适配器函数",与软件库中的函数类似,具有明确定义的输入和输出。

在这一语境下,适配器函数是一种经过训练的小型模型适配器,能够生成有别于传统模型的输出类型。这些适配器函数并不产生开放式文本,而是执行特定任务,例如对文档进行相关性评分、改写查询、检测幻觉,或进行安全性判断。

团队还推出了Granite Switch项目——一套面向现有模型架构的实验性工具,可动态管理Granite Libraries中的专用组件。结合近期发布的Granite 4.1系列模型,以及IBM开源的生成式计算库Mellea,开发者现在拥有了一种工具,能够将不可预测的文本生成转化为可靠、确定性的编程函数。

Granite Libraries的设计初衷,是为AI模型带来与软件同等水平的定制化能力。

IBM已发布三个面向常见企业工作流的库。RAG库包含用于检索增强生成关键任务的适配器,涵盖查询改写、可回答性评估、幻觉检测和引用生成等功能。核心库提供基础能力,包括需求检查、确信度评分和上下文归因。安全守护库则使模型能够直接执行内联安全性、事实性和策略检查,无需独立的防护模型。上述Granite Libraries均适用于所有Granite 4.1模型。

由于这些库具有模块化且独立训练的特点,企业可以按需采用,并逐步添加更多能力,与当今软件依赖管理的方式颇为相似。

每个适配器函数都经过训练,成为某一任务的专家。以需求检查器为例,它接收模型响应和一组约束条件,并返回约束条件是否满足的判断。当Granite 4.1 3B被明确提示执行此任务时,其在常用指令跟随基准IFEval上的平衡准确率为51%。而当同一模型配备了新的Granite Library需求检查适配器函数后,准确率跃升至84%。

适配器使小型模型在特定任务上的表现,显著优于单纯依赖精心设计提示词的基础模型。而Mellea则使这些适配器函数真正具备软件的特性:它自动插入激活特定适配器所需的标签,实时严格执行格式规则,并将一切封装为标准Python函数,从而将主应用程序与原始AI文本的不确定性隔离开来。

借助Granite Libraries,Granite基础模型可以调用针对特定任务的专家——低秩适配器(LoRA)或激活式低秩适配器(aLoRA)——这些专家经过训练,能够通过软件接口执行定义明确的功能。这赋予了小型模型在窄域任务上媲美大型通用模型的能力,同时推理成本大幅降低。

当库适配器处于激活状态时,模型可以在该任务上表现得专注而出色。基础模型本身保持不变,但其行为可以按需精确规定,切换激活式低秩适配器的成本几乎可以忽略不计。

Granite Switch项目是一套新的实验性工具,已在GitHub上发布,可在数分钟内组合出新模型,类似于编译器从源代码和软件库生成二进制文件的方式。

Granite Switch允许基础Granite模型与其适配器函数作为一个整体运行,并在推理时高效激活相应组件。其实现方式是在现有Granite核心模型中添加一个新的"切换"层,将适配器权重粘合到基础模型上,并附加格式标签和新的对话模板。无需为每个不同任务启动全新的AI模型,Granite Switch会在恰当的时机动态开启或关闭所需适配器。基础模型在Granite Switch中依然可访问,这意味着新能力的引入不会以任何方式改变底层模型。

这一独立切换层允许LoRA和aLoRA在vLLM(面向大规模部署的开源推理引擎)中运行。在实际业务场景中,单个任务通常需要一系列动作,例如运行安全检查、检索数据和验证答案。在不同适配器之间切换会迫使AI清除短期记忆,并在每一步从头重新计算,从而拖慢速度。通过使用激活式低秩适配器,Granite Switch模型可以在步骤之间保留记忆,无需暂停重读,从而大幅提升多步骤工作流的速度。

其实现原理是:在基础模型中插入一个额外的Transformer层,并利用其注意力机制读取并保存与当前激活适配器状态相关的值;一个特殊的控制Token会向模型发出切换专家的信号,就像调度员在编组站指挥列车去向,而切换层则充当轨道本身。

Granite Libraries和Granite Switch项目的潜力,离不开其所依托的强大基础模型。IBM近期发布的Granite 4.1,是迄今为止性能最强的系列模型。

Granite 4.1系列的设计目标是以小博大:8B模型的性能与之前的Granite 32B混合专家(MoE)模型持平甚至更优;30B模型在企业任务上与Llama 3.3 70B等规模更大的模型一较高下。能够快速适配其他任务的小型高性能模型,其服务成本远低于在窄域任务上可能表现欠佳的大型通用模型。

通过在相对少量的高质量数据上进行训练,这些模型在工具调用和指令跟随方面取得了极具竞争力的分数,同时相比许多前沿推理模型保持了更低的延迟和运营成本。

此次发布是更广泛生态系统的组成部分,还包括在行业领先的表格与图表提取方面表现出众的Granite Vision 4.1,以及全新的语音模型和防护模型。所有模型均在约15万亿Token上训练而成,以开源Apache 2.0许可证发布,支持12种主要语言,可用于全球部署。

IBM推出Granite Libraries,作为将AI模型打造得像软件一样可组合的更宏观目标的一部分,以便为企业用户创造更大价值。通过将各项能力分离为模块化组件,开发者可以构建出更易于适配、运营成本更低、在生产环境中更具可预测性的AI系统。

模块化并不能解决大规模部署生成式AI的所有挑战,但它为构建更可持续、更适合企业应用的系统提供了一条切实可行的路径。

Q&A

Q1:Granite Libraries是什么?它能解决哪些问题?

A:Granite Libraries是IBM推出的一套模块化适配器集合,可针对特定任务定制AI模型,无需重新训练整个模型。它包含RAG库、核心库和安全守护库三个部分,分别支持检索增强生成、基础能力评估和安全性检查等企业常见工作流,大幅提升模型在特定任务上的准确率,同时降低推理成本。

Q2:Granite Switch和普通模型部署有什么区别?

A:普通部署方式往往需要为不同任务启动多个独立模型,切换时还会清除模型的短期记忆,导致多步骤任务效率较低。Granite Switch通过在基础模型中插入切换层,可以在推理时动态激活不同适配器,同时保留上下文记忆,不改变底层模型,从而显著提升多步骤工作流的速度和灵活性。

Q3:Granite 4.1模型相比之前的版本有哪些提升?

A:Granite 4.1系列主打以小博大,8B模型性能达到甚至超越此前32B混合专家模型的水平,30B模型可与Llama 3.3 70B等更大模型在企业任务上竞争。所有模型在约15万亿Token上训练,支持12种语言,以Apache 2.0开源许可证发布,在保持低延迟和低成本的同时,在工具调用和指令跟随基准上取得了极具竞争力的成绩。

来源:IBM

0赞

好文章,需要你的鼓励

2026

06/05

14:02

分享

点赞

邮件订阅