Salesforce正押注通过在模拟商业环境中进行严格测试,来解决企业人工智能面临的最大问题:智能体在演示中运行良好,但在复杂的企业运营现实中却频频失败。
这家云软件巨头本周发布了三大AI研究计划,包括CRMArena-Pro——该公司称之为商业运营的"数字孪生"平台,AI智能体可在部署前接受压力测试。这一发布正值企业普遍面临AI试点项目失败,以及最近泄露事件影响数百个Salesforce客户实例而引发新安全担忧之际。
"飞行员不会在暴风雨中学习飞行;他们在飞行模拟器中训练,推动他们为最极端的挑战做准备,"Salesforce首席科学家兼AI研究主管Silvio Savarese在新闻发布会上表示。"同样,AI智能体从模拟测试和训练中受益,使它们为在部署前处理日常商业场景的不可预测性做好准备。"
这一研究推进反映了企业对AI实施日益增长的挫败感。最近的MIT报告发现,95%的企业生成式AI试点项目未能投入生产,而Salesforce自己的研究显示,大语言模型在复杂商业场景中的成功率仅为35%。
**企业AI数字孪生:Salesforce如何模拟真实商业混乱**
CRMArena-Pro代表了Salesforce试图弥合AI承诺与性能之间差距的努力。与测试通用能力的现有基准不同,该平台使用合成但真实的商业数据,在客户服务升级、销售预测和供应链中断等真实企业任务上评估智能体。
"如果合成数据生成不够谨慎,可能会导致对智能体在真实环境中实际表现的误导或过度乐观结果,"领导CRMArena-Pro开发的Salesforce研究经理Jason Wu解释说。
该平台在实际Salesforce生产环境而非玩具设置中运行,使用由具有相关商业经验的领域专家验证的数据。它支持B2B和B2C场景,并可模拟捕获真实对话动态的多轮对话。
Salesforce一直将自己作为"零号客户"来内部测试这些创新。"在我们将任何东西推向市场之前,我们会将创新交到自己团队手中进行测试,"Salesforce总裁兼首席技术官Muralidhar Krishnaprasad在新闻发布会上说。
**决定AI智能体是否为企业就绪的五个指标**
除了模拟环境,Salesforce还推出了CRM智能体基准,旨在从五个关键企业指标评估AI智能体:准确性、成本、速度、信任与安全性,以及环境可持续性。
可持续性指标特别值得注意,帮助企业将模型规模与任务复杂性对齐,在保持性能的同时减少环境影响。该公司表示:"通过减少模型过载噪音,该基准为企业提供清晰、数据驱动的方式来将正确的模型与正确的智能体配对。"
这一基准测试工作解决了IT领导者面临的实际挑战:随着几乎每天都有新AI模型发布,确定哪些适合特定商业应用变得越来越困难。
**为什么混乱的企业数据可能决定AI部署成败**
第三项计划专注于可靠AI的基本前提:清洁、统一的数据。Salesforce的账户匹配能力使用微调语言模型自动识别和整合跨系统的重复记录,识别"The Example Company, Inc."和"Example Co."代表同一实体。
数据整合工作源于Salesforce研究和产品团队之间的合作。Krishnaprasad解释说:"Data Cloud中的身份解析本质上意味着,如果你考虑像用户这样简单的东西,他们在任何公司的许多系统中都有许多许多许多ID。"
一个主要云提供商客户使用该技术实现了95%的匹配率,通过消除手动交叉引用多个屏幕来识别账户的需要,为销售人员每次连接节省30分钟。
**OAuth Token盗窃暴露AI驱动客户工具漏洞**
这些公告是在本月早些时候影响超过700个Salesforce客户组织的数据盗窃活动引发安全担忧加剧的背景下发布的。根据Google威胁情报组,黑客利用来自Salesloft的Drift聊天智能体的OAuth Token访问Salesforce实例,并窃取Amazon Web Services、Snowflake和其他平台的凭据。
这次泄露突出了企业依赖于AI驱动客户参与的第三方集成中的漏洞。Salesforce已从其AppExchange市场移除Salesloft Drift,等待调查。
**AI演示与企业现实之间的差距比你想象的更大**
模拟和基准测试计划反映了更广泛的认识,即企业AI部署需要的不仅仅是令人印象深刻的演示视频。真实的商业环境具有遗留软件、不一致的数据格式和复杂的工作流程,这些都可能使即使是复杂的AI系统也脱轨。
"我们今天一直在讨论的主要方面是一致性方面,因此如何确保我们从这些在某种程度上不令人满意的性能——如果你只是将大语言模型插入企业用例——转向实现更高性能的东西,"Savarese在新闻发布会上说。
Salesforce的方法强调AI智能体需要在多样化场景中可靠工作,而不是在狭窄任务中表现出色。该公司的"企业通用智能"(EGI)概念专注于构建在执行复杂商业任务时既有能力又一致的智能体。
随着企业继续投资AI技术,像CRMArena-Pro这样平台的成功可能决定当前AI热潮是否转化为可持续的商业转型,或成为技术承诺超过实际交付的另一个例子。
这些研究计划将在10月的Salesforce Dreamforce大会上展示,预计该公司将宣布更多AI发展,寻求在竞争日益激烈的企业AI市场中保持领导地位。
Q&A
Q1:CRMArena-Pro是什么?它能解决什么问题?
A:CRMArena-Pro是Salesforce开发的商业运营"数字孪生"平台,被称为AI智能体的"飞行模拟器"。它主要解决AI智能体在演示中表现良好但在实际企业环境中失败的问题,通过模拟真实商业场景对智能体进行压力测试。
Q2:为什么95%的企业AI试点项目会失败?
A:根据MIT报告,企业AI部署面临的主要挑战包括:真实商业环境具有遗留软件、不一致的数据格式和复杂工作流程;大语言模型在复杂商业场景中成功率仅为35%;缺乏严格的测试和验证机制。
Q3:Salesforce推出的CRM智能体基准包含哪些评估指标?
A:CRM智能体基准包含五个关键企业指标:准确性、成本、速度、信任与安全性,以及环境可持续性。其中可持续性指标特别值得注意,帮助企业将模型规模与任务复杂性对齐,在保持性能的同时减少环境影响。
好文章,需要你的鼓励
英伟达推出基于3nm工艺的GB10超级芯片,搭载于DGX Spark工作站中。该芯片采用联发科设计的CPU和英伟达GPU通过NVLink互连,提供600GB/s双向带宽。配备128GB LPDDR5x内存,功耗仅140瓦,可支持700亿参数模型微调和2000亿参数模型推理。通过ConnectX-7网卡可实现多设备协作,为开发者提供从原型设计到生产部署的完整AI开发平台。
清华大学等多家机构研究团队完成了语音分离技术的全面调研,系统梳理了从传统方法到深度学习的技术演进。研究揭示了"鸡尾酒会问题"的核心挑战,分析了各种学习范式和网络架构的优劣,并通过统一实验框架提供了公平的性能基准。调研涵盖了实时处理、轻量化设计、多模态融合等关键技术方向,为学术界和产业界的技术选型提供了重要参考,推动语音分离从实验室走向实际应用。
微软为Word推出新功能,在用户首次保存前自动将新文档保存到云端。该功能目前面向Microsoft 365内测用户开放,默认启用后会自动将新建文档保存至OneDrive或用户首选云存储位置。系统将使用日期命名文件,替代传统的"文档n"格式。文档保存后,Copilot可访问并分析内容。该功能今年晚些时候将扩展至Excel和PowerPoint。
浙江大学和腾讯微信视觉团队发现AI图片生成训练中"时机胜过强度"的重要规律,开发出TempFlow-GRPO新方法。通过轨迹分支技术精确评估中间步骤,结合噪声感知权重调整优化不同阶段的学习强度,将训练效率提升三倍,在复杂场景理解方面准确率从63%提升至97%,为AI训练方法论带来重要突破。