如何在智能体系统中平衡风险管理、安全性与创新——以及如何解决数据和模型选择的核心考虑因素?在这次VB Transform会议上,Capital One AI基础设施技术高级副总裁Milind Naphade分享了在部署和扩展智能体工作流程方面的最佳实践和经验教训。
Capital One致力于保持在新兴技术前沿,最近推出了一个生产级的、最先进的多智能体AI系统,以提升购车体验。在该系统中,多个AI智能体协同工作,不仅向购车者提供信息,还根据客户的偏好和需求采取具体行动。例如,一个智能体负责与客户沟通,另一个根据业务规则和可用工具创建行动计划,第三个智能体评估前两个的准确性,第四个智能体向用户解释和验证行动计划。由于拥有超过1亿客户使用各种其他潜在的Capital One应用场景,该智能体系统是为规模化和复杂性而构建的。
"当我们考虑改善客户体验、让客户满意时,我们会思考有哪些方式可以实现这一点?"Naphade说道。"无论是开户、查询余额还是预约试驾,客户都有很多需求。其核心问题很简单:如何理解客户想要什么?如何理解你可利用的履约机制?如何将Capital One这样的受监管实体的所有严格要求——所有政策、业务规则、约束条件,无论是监管还是其他方面——都融入其中?"
他表示,对于内部和面向客户的应用场景,智能体AI显然是下一步发展方向。
设计智能体工作流程
金融机构在设计任何支持客户旅程的工作流程时都有特别严格的要求。Capital One的应用包括许多复杂流程,客户通过对话工具提出问题和查询。这两个因素使得设计过程特别复杂,需要对整个旅程有全面的认识——包括客户和人工智能体在每个步骤中如何响应、反应和推理。
"当我们研究人类如何进行推理时,我们被一些显著的事实所震撼,"Naphade说道。"我们发现,如果使用多个逻辑智能体来设计,我们就能很好地模仿人类推理。但你会问自己,不同的智能体到底做什么?为什么有四个?为什么不是三个?为什么不是20个?"
他们研究了历史数据中的客户体验:哪些对话进展顺利,哪些出现问题,应该花费多长时间以及其他显著事实。他们了解到,通常需要与智能体进行多轮对话才能理解客户想要什么,任何智能体工作流程都需要为此做好计划,同时必须完全基于组织的系统、可用工具、API和组织政策护栏。
"对我们来说,主要的突破是意识到这必须是动态和迭代的,"Naphade说道。"如果你看看很多人如何使用大语言模型,他们只是将大语言模型作为前端嫁接到原有机制上。他们只是使用大语言模型进行意图分类。但我们从一开始就意识到这是不可扩展的。"
借鉴现有工作流程
基于对人工智能体在响应客户时如何推理的直觉,Capital One的研究人员开发了一个框架,其中一个由专家AI智能体组成的团队,每个都有不同的专业知识,共同解决问题。
此外,Capital One在开发智能体系统时纳入了强大的风险框架。作为受监管的机构,Naphade指出,除了其一系列内部风险缓解协议和框架外,"在Capital One内部,为了管理风险,其他独立实体会观察你、评估你、质疑你、审计你,"Naphade说道。"我们认为这对我们来说是个好主意,拥有一个AI智能体,其全部工作就是根据Capital One的政策和规则评估前两个智能体的工作。"
评估器确定早期智能体是否成功,如果不成功,就拒绝计划并要求规划智能体根据其对问题所在的判断来纠正结果。这个过程会迭代进行,直到达到适当的计划。这也被证明是公司智能体AI方法的巨大优势。
"评估器智能体是……我们引入世界模型的地方。这是我们模拟如果一系列行动真正执行会发生什么的地方。这种严格性是我们作为受监管企业所需要的——我认为这实际上让我们走上了一个很好的可持续和稳健的轨道。我预计很多企业最终都会走到这一点。"
智能体AI的技术挑战
智能体系统需要与整个组织的履约系统协同工作,所有系统都有各种权限。在各种上下文中调用工具和API同时保持高准确性也具有挑战性——从消除用户意图歧义到生成和执行可靠计划。
"我们有多次实验、测试、评估、人工参与的迭代,以及在我们真正将这样的产品推向市场之前需要的所有适当护栏,"Naphade说道。"但最大的挑战之一是我们没有任何先例。我们无法说,哦,别人是这样做的。那样的效果如何?有那种新颖性元素。我们是第一次这样做。"
模型选择和与NVIDIA的合作
在模型方面,Capital One密切跟踪学术和行业研究,在会议上发表演讲,并紧跟最新技术。在当前的应用场景中,他们使用开源权重模型而不是闭源模型,因为这允许他们进行重要的定制。Naphade断言,这对他们来说至关重要,因为AI策略的竞争优势依赖于专有数据。
在技术栈本身,他们使用工具组合,包括内部技术、开源工具链和NVIDIA推理栈。与NVIDIA密切合作帮助Capital One获得了所需的性能,并在NVIDIA库中的行业特定机会上进行协作,优先考虑Triton服务器和TensorRT大语言模型的功能。
智能体AI:展望未来
Capital One继续在整个业务中部署、扩展和完善AI智能体。他们的第一个多智能体工作流程是Chat Concierge,通过公司的汽车业务部署。它旨在支持汽车经销商和客户的购车过程。凭借丰富的客户数据,经销商正在识别严肃的潜在客户,这显著改善了他们的客户参与度指标——在某些情况下高达55%。
"他们能够通过这个自然、更简单、24/7的智能体为他们工作,产生更好的严肃潜在客户,"Naphade说道。"我们希望将这种能力带到更多面向客户的互动中。但我们希望以良好管理的方式做到这一点。这是一个旅程。"
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。