Salesforce 正在解决人工智能在企业应用中最为持久的难题之一,即 AI 系统原始智能与其在不可预测的企业环境中持续高效执行任务之间的差距 —— 公司称之为 “参差不齐的智能”。
在今天一项全面的研究公告中,Salesforce AI Research 发布了多个全新的基准测试、模型和框架,旨在使未来的 AI 代理在企业应用上更加智能、值得信赖和多功能。此系列创新旨在提升 AI 系统的能力和一致性,尤其是在复杂业务场景中以自主代理形式部署时。
Salesforce 首席科学家兼 AI Research 主管 Silvio Savarese 在新闻发布会前表示:“虽然大语言模型在标准化测试、规划精细行程和生成精致诗篇方面可能表现出色,但当需要在动态、不可预测的企业环境中可靠且一致地执行任务时,其卓越表现往往会出现不足。”
该计划标志着 Salesforce 正朝着 Savarese 所称的 “企业通用智能 (EGI)” 迈进 —— 一种专为应对企业复杂性而设计的 AI,而非单纯追求理论上的人工通用智能 (AGI)。
Savarese 解释道:“我们将 EGI 定义为专为企业构建的 AI 代理,其优化不仅注重能力,也着眼于执行的一致性。虽然 AGI 可能让人联想到超越人类的超级智能机器,但企业并不会为那遥远而虚幻的未来而等待。它们正将这些基础性概念应用于当前,以大规模解决现实世界中的挑战。”
Salesforce 如何在企业环境中衡量并解决 AI 不一致性问题
本次研究的核心在于量化并解决 AI 表现上的不一致性。Salesforce 推出了 SIMPLE 数据集,这是一个公开基准测试,共包含 225 个基础推理问题,旨在衡量 AI 系统实际能力的参差不齐程度。
Salesforce 研究高级经理 Shelby Heinecke 在新闻发布会上解释道:“当下的 AI 确实参差不齐,所以我们必须对此加以改进。但若不先进行测量,又如何改进呢?这正是 SIMPLE 基准测试的意义所在。”
对于企业应用来说,这种不一致性不仅仅是个学术问题。一个小小的失误便可能扰乱运营、削弱客户信任,甚至造成重大经济损失。
Savarese 在评论中指出:“对于企业来说,AI 绝非休闲消遣;它是一项关键任务工具,要求无比可靠的可预测性。”
CRMArena 揭秘:Salesforce 为企业 AI 代理打造的虚拟测试平台
也许最重要的创新是 CRMArena,这是一种全新的基准框架,专为模拟真实客户关系管理场景而设计。它能够在专业环境中对 AI 代理进行全面测试,从而弥合学术基准与实际企业需求之间的鸿沟。
Savarese 表示:“鉴于当前 AI 模型在反映企业环境中复杂需求方面往往力不从心,我们推出了 CRMArena —— 一个精心设计的新型基准框架,用以模拟真实且具有专业背景的客户关系管理场景。”
该框架通过评估代理在三个关键角色下的表现——服务代理、分析师和经理——来进行测试。早期测试显示,即使在辅助提示下,领先的代理在针对这三个角色的函数调用任务中,其成功率均未超过 65%。
Savarese 解释道:“CRM 竞技场本质上是我们内部用来提升代理能力的工具。它使我们能够对代理进行压力测试,找出其失误的时刻,并利用这些失败案例总结经验,从而不断改进我们的代理。”
全新嵌入模型:比以往更好地理解企业情境
在此次技术创新中,Salesforce 特别强调了 SFR-Embedding,这是一种全新模型,能够实现更深入的情境理解,并在涵盖 56 个数据集的大型文本嵌入基准 (MTEB) 中遥遥领先。
Heinecke 指出:“SFR 嵌入不仅仅停留在研究层面,它将很快应用于 Data Cloud。”
同时,面向开发者的专用版本 SFR-Embedding-Code 也已推出,它不仅提供高质量的代码搜索能力,还大大简化了开发流程。Salesforce 表示,其 7B 参数版本在代码信息检索 (CoIR) 基准测试中处于领先地位,而较小的模型(400M、2B)则提供了一种高效且成本更低的替代方案。
为何更小、以行为为中心的 AI 模型在企业任务中可能优于大型语言模型
Salesforce 此外还宣布了 xLAM V2 (Large Action Model) —— 一系列专为预测动作而非仅生成文本设计的模型。这些模型的参数起始仅为 10 亿,远小于许多领先的大语言模型的体量。
Heinecke 解释道:“我们的 xLAM 模型非常独特,从 1B 到最高 70B 模型都有。举例来说,1B 模型的规模仅为当今许多大语言模型的一小部分,但其在预测下一步动作方面却蕴含着惊人的力量。”
与传统的语言模型不同,这些动作模型经过专门训练,专注于预测和执行任务序列中的下一步动作,这使得它们在需要与企业系统进行交互的自主代理中格外有价值。
Heinecke 补充道:“大型动作模型其实是基于大语言模型构建而成的,我们通过在‘行动轨迹’上对大语言模型进行微调来构建这些模型。”
企业 AI 安全:Salesforce 的信任层如何为商业应用建立护栏
为应对企业对于 AI 安全性和可靠性的担忧,Salesforce 推出了一系列名为 SFR-Guard 的模型,这些模型既基于公开数据也使用了针对客户关系管理设计的内部数据进行训练,从而增强了公司的信任层,为 AI 代理行为设定了护栏。
公司在公告中表示:“Agentforce 的护栏基于企业需求、政策和标准为代理行为划定了明确界限,确保代理在预设范围内运作。”
另外,公司还推出了 ContextualJudgeBench,这是一种新型基准测试,用于在具体情境中评估基于大语言模型的评判模型——测试内容覆盖了 2000 多组具有挑战性的响应对,重点考察准确性、简洁性、忠实度以及在适当情况下的拒绝回答。
超越文本:TACO 多模态动作模型系列解决复杂多步骤问题
超越单一文本应用,Salesforce 推出了 TACO,这是一系列多模态动作模型,旨在通过 “思维与动作链 (CoTA)” 解决复杂的多步骤问题。这种方法使 AI 能够解析并响应涉及多种媒体类型的复杂查询,Salesforce 宣称该方案在挑战性的 MMVet 基准测试中提升了高达 20% 的性能。
共创实践:客户反馈如何塑造 Salesforce 的企业 AI 路线图
Salesforce AI Research 孵化与品牌策略高级总监 Itai Asseo 强调了客户共创在开发企业级 AI 解决方案过程中的重要作用。
Itai Asseo 表示:“与客户交流时,我们发现一个主要痛点在于处理企业数据时,对不准确或不相关答案的容忍度极低。”他进一步解释道:“无论是采用推理引擎、RAG 技术还是其他与大语言模型相关的方法,我们都在不断取得进展。”
Asseo 还举例说明,通过客户孵化,与 Atlas 推理引擎以及先进的检索增强生成技术结合,再运用我们的推理和代理循环方法及架构,所获得的准确率比客户与其他主要竞争对手合作时提升了两倍之多。
通往企业通用智能的道路:Salesforce AI 的下一步计划
Salesforce 的研究进展正值企业 AI 采用的关键时刻,因为企业日益需要既具备先进能力又表现稳定的 AI 系统。
尽管整个科技行业都在追求拥有惊人原始能力的超级大模型,但 Salesforce 针对一致性差距的关注彰显了一种更为精细的 AI 发展方法 —— 更注重满足现实中的企业需求,而不单单是取得学术基准上的突破。
本周四宣布的各项技术将在未来几个月内陆续推出,其中 SFR-Embedding 将首先应用于 Data Cloud,而其他创新则将为未来版本的 Agentforce 提供支持。
正如 Savarese 在新闻发布会上指出的那样:“这并不是旨在取代人类,而是为了掌控局面。” 在争夺企业 AI 主导地位的竞赛中,Salesforce 正在押注于一致性与可靠性 —— 而不仅仅靠原始的智能,这将最终决定商业 AI 革命中的胜者。
好文章,需要你的鼓励
本文介绍了 Mastercard 推出的 Agent Pay,通过将 AI 搜索平台与支付系统整合,使用户无需切换窗口即可安全完成交易,同时利用代币化技术和大数据风控,实现企业级无缝支付。
Salesforce 最新研究发布多个企业级 AI 模型、数据集和测试平台,旨在提升 AI 在复杂业务场景中的一致性与可靠性,为企业提供实用、可信赖的智能工具。
Anthropic 推出可让 Claude 实时检索最新信息的 web 搜索 API,助力开发者构建定制 AI 应用,挑战传统搜索模式。
Stripe在年度大会上推出多款支付创新产品,包括基于亿级交易训练的AI模型提升反欺诈能力、稳定币多币卡以及多支付渠道管理工具,并快速协助 Nvidia 完成账单迁移,全面扩展全球支付方式。