为了在企业人工智能市场中开拓自己的领地,IBM 公司今天推出了新一代 Granite AI 模型系列,包含实验性推理能力、视觉和预测功能。
与以往每次发布一样,IBM 以开放源代码 Apache 2.0 许可证发布这些模型。所有 Granite 模型现已在 Hugging Face 上线,部分模型也可在 IBM watson.ai 及其他平台上使用。
这个新系列包含旗舰级纯文本大语言模型 Granite 3.2 Instruct,有 8B 和 2B 两个版本。它可以执行总结、问题解决和代码生成等任务,并且设计为可以遵循指令。这些类型的模型最适合构建 AI 助手和代理。两个版本都经过训练,可以使用类似于其他行业标准模型的"思维链"推理,但 IBM 工程师特别设计了更小、性能更高的模型。
每个模型的推理能力都可以通过编程方式开启或关闭。这意味着 IBM 不需要发布单独的"推理模型",而是创建了一个可以在对话模式和推理模式之间切换的模型。由于推理在部署时需要大量计算资源,在不需要时关闭这一功能可以节省大量能源。
IBM AI 研究副总裁 Sriram Raghavan 表示:"AI 的下一个时代关注效率、集成和实际影响 - 企业无需过度投入计算资源就能实现强大的成果。"
推理模型通过"逐步"思考问题,业内通常称之为"思维链"。自 DeepSeek 的 R1 发布以来,这类模型越来越受欢迎。大多数推理模型会扫描整个推理空间以发现最佳逻辑"路径",然后生成最终答案。然而,一旦确定某条路径不可行,就没有必要继续探索整个路径。
IBM 工程师开发了一种新颖的推理扩展技术,通过使用第二个过程奖励模型添加奖励系统,降低了推理任务的计算成本。这个奖励模型会监控大语言模型,并在推理过程中将其引导至具有更高置信度结果的逻辑路径。结合可以扫描整个逻辑空间的搜索技术,IBM 研究人员表示,与一体化的 R1 相比,他们能够创建一个更小、更高效的推理模型方案。
SiliconANGLE 姐妹市场研究公司 theCUBE Research 的首席分析师 Dave Vellante 表示:"DeepSeek 的 R1 发布在某种程度上承认了 IBM 更小、高效率的模型策略。IBM 的简报强化了这一观点,指出 DeepSeek 早在 2024 年 12 月就使用了专家混合和其他效率方法,但直到最近 R1 受到关注才引起市场注意。我们认为这呼应了 IBM 在训练效率和专业架构方面的方法。"
IBM 表示,Granite 3.2 8B 经过调优后,在 AIME2024 和 MATH500 等数学推理基准测试中可以与 Claude 3.5 Sonnet 和 OpenAI GPT-4o 等更大的模型相媲美。
新的多模态视觉模型和更小的护栏模型
IBM 还发布了新的多模态 Granite Vision 3.2 2B,具备计算机视觉能力,专门训练用于帮助企业处理视觉文档理解。
Granite Vision 可以处理各种视觉理解任务,但最适合处理文档。虽然大多数视觉语言模型都是为视觉任务设计的,但很少有模型在光学字符或文本识别方面表现出色。IBM 的工程团队花费了大量时间训练 Vision 3.2,使其能够识别布局、字体、图表和信息图表的独特视觉特征。
Granite Guardian 3.2 是 IBM 最新的护栏 AI 模型,旨在检测和突出显示提示和响应中的风险。公司表示,它提供了与 3.1 相当的性能,但速度更快,成本更低。
Guardian 3.2 的一个优点是在监控输入和输出时提供"口头置信度"指示。它不是简单地表示二元的"是"或"否",而是表达"高"或"低"的置信水平。这为开发人员提供了更好的指示,帮助他们判断是否可以信任或拒绝输出,给出了一个可以使用的阈值。
除了更新的 8B 版本外,IBM 还发布了两个新的模型规模。第一个是精简的 50 亿参数版本,保持接近原始版本的性能。第二个是 Granite 3.2 3B-A800M,通过微调专家混合基础模型创建。它通过一次只激活其 30 亿参数中的 8 亿参数来运行,以实现低成本高性能。
IBM Granite 系列的最后一个模型包括紧凑型 Granite Timeseries 模型,也称为 Tiny Time Mixers。最新添加的 Granite-Timeseries-TTM-R2.1 扩展了模型功能,可以进行长达两年的日常和每周预测。时间序列模型适用于预测金融、经济、供应链需求预测和零售季节性库存规划等行业的长期趋势。
好文章,需要你的鼓励
OpenAI意外发现规模假说:Dota 2项目中计算资源翻倍带来AI表现翻倍,彻底改变行业轨迹。Greg Brockman揭秘GPT-3产品化困境:"我们不知道谁会为API付费",最终市场自己找到了出路。AI医疗突破只需超越WebMD,个性化咨询正在重塑多个领域。
孟加拉国联合国际大学研究团队开发了VisText-Mosquito多模态数据集,这是首个集成视觉检测和自然语言推理的蚊子繁殖点识别系统。该系统包含1970张标注图像,能够识别五类繁殖容器并进行水面分割,同时提供人类可理解的判断解释。YOLOv9s等模型达到92.9%检测精度,为全球蚊媒疾病防控提供了AI技术支撑。
存储行业近期动态频繁,Arctera、Wasabi和TD SYNNEX联合推出渠道专属数据保护解决方案;AWS启用EC2环境SAN启动功能;Broadcom发布VMware Cloud Foundation 9.0版本;Commvault与Kyndryl合作提升网络弹性服务;CTERA成为首家支持模型上下文协议的混合云存储供应商;多家企业获得新一轮融资,推动AI基础设施和数据管理技术发展。
特拉维夫大学研究团队通过分析GCG攻击机制,发现越狱攻击的成功依赖于"注意力劫持"现象,即攻击后缀能占据AI注意力机制的主导地位。研究表明,攻击的万能性与劫持强度直接相关,并基于此开发了增强攻击效果和防御攻击的实用方法,为AI安全研究提供了新视角。