为了在企业人工智能市场中开拓自己的领地,IBM 公司今天推出了新一代 Granite AI 模型系列,包含实验性推理能力、视觉和预测功能。
与以往每次发布一样,IBM 以开放源代码 Apache 2.0 许可证发布这些模型。所有 Granite 模型现已在 Hugging Face 上线,部分模型也可在 IBM watson.ai 及其他平台上使用。
这个新系列包含旗舰级纯文本大语言模型 Granite 3.2 Instruct,有 8B 和 2B 两个版本。它可以执行总结、问题解决和代码生成等任务,并且设计为可以遵循指令。这些类型的模型最适合构建 AI 助手和代理。两个版本都经过训练,可以使用类似于其他行业标准模型的"思维链"推理,但 IBM 工程师特别设计了更小、性能更高的模型。
每个模型的推理能力都可以通过编程方式开启或关闭。这意味着 IBM 不需要发布单独的"推理模型",而是创建了一个可以在对话模式和推理模式之间切换的模型。由于推理在部署时需要大量计算资源,在不需要时关闭这一功能可以节省大量能源。
IBM AI 研究副总裁 Sriram Raghavan 表示:"AI 的下一个时代关注效率、集成和实际影响 - 企业无需过度投入计算资源就能实现强大的成果。"
推理模型通过"逐步"思考问题,业内通常称之为"思维链"。自 DeepSeek 的 R1 发布以来,这类模型越来越受欢迎。大多数推理模型会扫描整个推理空间以发现最佳逻辑"路径",然后生成最终答案。然而,一旦确定某条路径不可行,就没有必要继续探索整个路径。
IBM 工程师开发了一种新颖的推理扩展技术,通过使用第二个过程奖励模型添加奖励系统,降低了推理任务的计算成本。这个奖励模型会监控大语言模型,并在推理过程中将其引导至具有更高置信度结果的逻辑路径。结合可以扫描整个逻辑空间的搜索技术,IBM 研究人员表示,与一体化的 R1 相比,他们能够创建一个更小、更高效的推理模型方案。
SiliconANGLE 姐妹市场研究公司 theCUBE Research 的首席分析师 Dave Vellante 表示:"DeepSeek 的 R1 发布在某种程度上承认了 IBM 更小、高效率的模型策略。IBM 的简报强化了这一观点,指出 DeepSeek 早在 2024 年 12 月就使用了专家混合和其他效率方法,但直到最近 R1 受到关注才引起市场注意。我们认为这呼应了 IBM 在训练效率和专业架构方面的方法。"
IBM 表示,Granite 3.2 8B 经过调优后,在 AIME2024 和 MATH500 等数学推理基准测试中可以与 Claude 3.5 Sonnet 和 OpenAI GPT-4o 等更大的模型相媲美。
新的多模态视觉模型和更小的护栏模型
IBM 还发布了新的多模态 Granite Vision 3.2 2B,具备计算机视觉能力,专门训练用于帮助企业处理视觉文档理解。
Granite Vision 可以处理各种视觉理解任务,但最适合处理文档。虽然大多数视觉语言模型都是为视觉任务设计的,但很少有模型在光学字符或文本识别方面表现出色。IBM 的工程团队花费了大量时间训练 Vision 3.2,使其能够识别布局、字体、图表和信息图表的独特视觉特征。
Granite Guardian 3.2 是 IBM 最新的护栏 AI 模型,旨在检测和突出显示提示和响应中的风险。公司表示,它提供了与 3.1 相当的性能,但速度更快,成本更低。
Guardian 3.2 的一个优点是在监控输入和输出时提供"口头置信度"指示。它不是简单地表示二元的"是"或"否",而是表达"高"或"低"的置信水平。这为开发人员提供了更好的指示,帮助他们判断是否可以信任或拒绝输出,给出了一个可以使用的阈值。
除了更新的 8B 版本外,IBM 还发布了两个新的模型规模。第一个是精简的 50 亿参数版本,保持接近原始版本的性能。第二个是 Granite 3.2 3B-A800M,通过微调专家混合基础模型创建。它通过一次只激活其 30 亿参数中的 8 亿参数来运行,以实现低成本高性能。
IBM Granite 系列的最后一个模型包括紧凑型 Granite Timeseries 模型,也称为 Tiny Time Mixers。最新添加的 Granite-Timeseries-TTM-R2.1 扩展了模型功能,可以进行长达两年的日常和每周预测。时间序列模型适用于预测金融、经济、供应链需求预测和零售季节性库存规划等行业的长期趋势。
好文章,需要你的鼓励
微软宣布为Word和Excel推出基于OpenAI的AI代理模式,通过简单提示即可自动生成文档和分析数据。Word用户可享受"氛围写作"功能,利用现有文档组装报告和提案。Excel代理能分析电子表格数据并生成可视化报告。尽管在SpreadsheetBench基准测试中准确率仅为57.2%,低于人类平均水平71.3%,但微软强调其针对实际工作场景优化。此外,微软还发布了基于Anthropic的Office代理,显示其正逐步减少对OpenAI的依赖。
苹果与清华合作提出EpiCache技术,解决AI长期对话中的记忆管理难题。该方法将对话自动分割成话题片段,为每个话题建立专门记忆库,实现智能匹配和高效检索。实验显示,EpiCache比传统方法准确率提高40%,内存使用减少4-6倍,响应速度提升2.4倍,为资源受限环境下的AI对话系统提供了实用解决方案。
OpenAI为美国ChatGPT用户推出"即时结账"功能,用户可在对话中直接购买Etsy和Shopify商品,无需跳转至外部网站。该功能支持Apple Pay、Google Pay等多种支付方式,并计划接入超过100万家Shopify商户。OpenAI还将开源其代理商务协议技术,与谷歌的代理支付协议形成竞争。这标志着电商购物模式的重大转变,AI聊天机器人可能重塑在线零售发现和支付生态系统。
清华大学与英伟达合作提出DiffusionNFT,一种革命性的AI图像生成训练方法。该方法通过对比正负样本进行学习,避免了复杂的概率计算,训练效率比传统方法提升25倍。研究团队在多项测试中验证了其优越性,不仅大幅提升了图像质量和文字渲染能力,还实现了无需分类器引导的高效训练,为AI图像生成技术的普及和应用奠定了重要基础。