开源软件巨头 Red Hat Inc. 今日宣布推出一系列新功能,旨在加速开发和部署,进一步强化其平台作为企业 AI 系统基础的地位。
该公司表示,对今年 9 月推出的 "Red Hat AI" 套件的更新,旨在提高 AI 训练和推理效率,同时通过混合云环境的灵活部署来简化用户体验。
Red Hat AI 包含该公司两个关键产品。首个是 Red Hat Enterprise Linux AI,这是标准 RHEL 操作系统的特制版本,专门用于部署基础大语言模型。
开发者可以使用它来部署基于 Red Hat 母公司 IBM Corp. 的 Granite 大语言模型和其他模型(如 OpenAI 的 GPT 系列)的 AI 应用。该平台以优化的、可启动的 RHEL 镜像形式提供,可部署在本地服务器或混合云环境中。
Red Hat AI 的另一个主要组件是 Red Hat OpenShift AI,这是一个可扩展的 AI 和机器学习开发平台,用于大规模创建、测试和启动 AI 应用。
据 Red Hat 表示,企业在将 AI 应用和模型与训练所需的专有数据整合时仍面临挑战,部分原因是这些信息分散在各种不同的位置,包括本地服务器、云基础设施平台,甚至网络边缘(由传感器和其他设备生成的数据)。
Enterprise Strategy Group 首席分析师 Torsten Volks 表示,快速且具有成本效益地开发、部署、集成和扩展 AI 的能力已成为当今组织的关键成功因素。
"建立这种能力需要一个开放且可扩展的 AI 基础,确保与现有系统和流程的无缝集成、运营灵活性和持续治理," 他说。
Red Hat 表示,今天对 Red Hat OpenShift AI 和 RHEL AI 的更新有助于巩固这一基础,为开发更高效和优化的模型铺平道路。这些模型可以根据特定业务数据进行微调,同时确保数据安全。然后可以在任何位置部署在各种加速计算架构上,包括 Nvidia Corp. 的图形处理单元。
Red Hat OpenShift AI
从今天开始全面可用的 Red Hat OpenShift AI 2.18 增加了新功能,包括支持分布式服务,使团队能够在多个 GPU 之间分配模型服务,以减轻服务器基础设施的运营负担。通过在 GPU 集群上部署 AI,团队可以大幅加快训练和推理过程,并最大化底层基础设施的效率。
OpenShift AI 还增加了对 Red Hat AI InstructLab 和 OpenShift AI 数据科学流水线的支持,创建"端到端模型调优体验"。它在大型生产环境中更具可扩展性和可审计性,有助于提升 AI 应用安全性。
此外,还为大语言模型增加了增强的安全护栏,旨在提高其性能和输出准确性,同时增加透明度。新的护栏监控输入和输出,使用户能够识别和缓解所谓的"提示注入攻击",这些攻击试图操纵 AI 系统生成辱骂性、仇恨或亵渎性言论或泄露敏感信息。
该平台还新增了语言模型评估组件,提供关于大语言模型整体质量的重要见解,帮助数据科学家在各种不同任务(如数学和逻辑推理)中对其性能进行基准测试。
Red Hat Enterprise Linux AI
对于 RHEL AI,主要更新是支持最新的 Granite 3.1 8B 模型,这是开源且硬件高效的 Granite 大语言模型系列中最强大的版本。它是第一个具有多语言推理支持以及分类法和知识定制的版本,并具有更大的 128K 上下文窗口,可以提供更好的摘要输出。
RHEL AI 还获得了改进的图形用户界面,以支持对 AI 模型的技能和知识贡献。作为开发者预览版提供,它旨在简化数据摄取和分块任务,使开发者更容易增强他们正在使用的大语言模型的知识。
最后,还有一个新的文档知识基准,使开发者更容易比较使用私有数据训练的不同微调大语言模型的性能。
Red Hat AI 副总裁兼总经理 Joe Fernandes 表示,企业仍在寻找方法来简化私有数据与其 AI 模型的集成,并管理这些活动不断上升的成本。
"Red Hat AI 通过使企业能够利用在其数据上训练的更高效、专用模型,以及跨本地、云和边缘环境的灵活推理,帮助企业应对这些挑战," 他说。
在今天宣布的其他更新中,Red Hat 表示将很快把流行的 InstructLab 工具引入 IBM Cloud,使团队在该平台上训练大语言模型时能够简化、扩展和提升其安全性。该工具计划在春季推出,对于需要使用私有数据微调 AI 模型的团队来说应该特别有用。
最后,Red Hat 表示,其客户现在可以免费访问其 AI Foundations 在线培训课程。这些课程对非客户收费,提供两种 AI 学习证书路径,分别面向经验丰富的专业人士和 AI 新手,教育学习者如何利用 AI 改善业务运营和决策制定并加速创新。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
Meta研究团队发现仅仅改变AI示例间的分隔符号就能导致模型性能产生高达45%的巨大差异,甚至可以操纵AI排行榜排名。这个看似微不足道的格式选择问题普遍存在于所有主流AI模型中,包括最先进的GPT-4o,揭示了当前AI评测体系的根本性缺陷。研究提出通过明确说明分隔符类型等方法可以部分缓解这一问题。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
香港中文大学研究团队开发出CALM训练框架和STORM模型,通过轻量化干预方式让40亿参数小模型在优化建模任务上达到6710亿参数大模型的性能。该方法保护模型原生推理能力,仅修改2.6%内容就实现显著提升,为AI优化建模应用大幅降低了技术门槛和成本。