如何在智能体系统中平衡风险管理、安全性与创新——以及如何解决数据和模型选择的核心考虑因素?在这次VB Transform会议上,Capital One AI基础设施技术高级副总裁Milind Naphade分享了在部署和扩展智能体工作流程方面的最佳实践和经验教训。
Capital One致力于保持在新兴技术前沿,最近推出了一个生产级的、最先进的多智能体AI系统,以提升购车体验。在该系统中,多个AI智能体协同工作,不仅向购车者提供信息,还根据客户的偏好和需求采取具体行动。例如,一个智能体负责与客户沟通,另一个根据业务规则和可用工具创建行动计划,第三个智能体评估前两个的准确性,第四个智能体向用户解释和验证行动计划。由于拥有超过1亿客户使用各种其他潜在的Capital One应用场景,该智能体系统是为规模化和复杂性而构建的。
"当我们考虑改善客户体验、让客户满意时,我们会思考有哪些方式可以实现这一点?"Naphade说道。"无论是开户、查询余额还是预约试驾,客户都有很多需求。其核心问题很简单:如何理解客户想要什么?如何理解你可利用的履约机制?如何将Capital One这样的受监管实体的所有严格要求——所有政策、业务规则、约束条件,无论是监管还是其他方面——都融入其中?"
他表示,对于内部和面向客户的应用场景,智能体AI显然是下一步发展方向。
设计智能体工作流程
金融机构在设计任何支持客户旅程的工作流程时都有特别严格的要求。Capital One的应用包括许多复杂流程,客户通过对话工具提出问题和查询。这两个因素使得设计过程特别复杂,需要对整个旅程有全面的认识——包括客户和人工智能体在每个步骤中如何响应、反应和推理。
"当我们研究人类如何进行推理时,我们被一些显著的事实所震撼,"Naphade说道。"我们发现,如果使用多个逻辑智能体来设计,我们就能很好地模仿人类推理。但你会问自己,不同的智能体到底做什么?为什么有四个?为什么不是三个?为什么不是20个?"
他们研究了历史数据中的客户体验:哪些对话进展顺利,哪些出现问题,应该花费多长时间以及其他显著事实。他们了解到,通常需要与智能体进行多轮对话才能理解客户想要什么,任何智能体工作流程都需要为此做好计划,同时必须完全基于组织的系统、可用工具、API和组织政策护栏。
"对我们来说,主要的突破是意识到这必须是动态和迭代的,"Naphade说道。"如果你看看很多人如何使用大语言模型,他们只是将大语言模型作为前端嫁接到原有机制上。他们只是使用大语言模型进行意图分类。但我们从一开始就意识到这是不可扩展的。"
借鉴现有工作流程
基于对人工智能体在响应客户时如何推理的直觉,Capital One的研究人员开发了一个框架,其中一个由专家AI智能体组成的团队,每个都有不同的专业知识,共同解决问题。
此外,Capital One在开发智能体系统时纳入了强大的风险框架。作为受监管的机构,Naphade指出,除了其一系列内部风险缓解协议和框架外,"在Capital One内部,为了管理风险,其他独立实体会观察你、评估你、质疑你、审计你,"Naphade说道。"我们认为这对我们来说是个好主意,拥有一个AI智能体,其全部工作就是根据Capital One的政策和规则评估前两个智能体的工作。"
评估器确定早期智能体是否成功,如果不成功,就拒绝计划并要求规划智能体根据其对问题所在的判断来纠正结果。这个过程会迭代进行,直到达到适当的计划。这也被证明是公司智能体AI方法的巨大优势。
"评估器智能体是……我们引入世界模型的地方。这是我们模拟如果一系列行动真正执行会发生什么的地方。这种严格性是我们作为受监管企业所需要的——我认为这实际上让我们走上了一个很好的可持续和稳健的轨道。我预计很多企业最终都会走到这一点。"
智能体AI的技术挑战
智能体系统需要与整个组织的履约系统协同工作,所有系统都有各种权限。在各种上下文中调用工具和API同时保持高准确性也具有挑战性——从消除用户意图歧义到生成和执行可靠计划。
"我们有多次实验、测试、评估、人工参与的迭代,以及在我们真正将这样的产品推向市场之前需要的所有适当护栏,"Naphade说道。"但最大的挑战之一是我们没有任何先例。我们无法说,哦,别人是这样做的。那样的效果如何?有那种新颖性元素。我们是第一次这样做。"
模型选择和与NVIDIA的合作
在模型方面,Capital One密切跟踪学术和行业研究,在会议上发表演讲,并紧跟最新技术。在当前的应用场景中,他们使用开源权重模型而不是闭源模型,因为这允许他们进行重要的定制。Naphade断言,这对他们来说至关重要,因为AI策略的竞争优势依赖于专有数据。
在技术栈本身,他们使用工具组合,包括内部技术、开源工具链和NVIDIA推理栈。与NVIDIA密切合作帮助Capital One获得了所需的性能,并在NVIDIA库中的行业特定机会上进行协作,优先考虑Triton服务器和TensorRT大语言模型的功能。
智能体AI:展望未来
Capital One继续在整个业务中部署、扩展和完善AI智能体。他们的第一个多智能体工作流程是Chat Concierge,通过公司的汽车业务部署。它旨在支持汽车经销商和客户的购车过程。凭借丰富的客户数据,经销商正在识别严肃的潜在客户,这显著改善了他们的客户参与度指标——在某些情况下高达55%。
"他们能够通过这个自然、更简单、24/7的智能体为他们工作,产生更好的严肃潜在客户,"Naphade说道。"我们希望将这种能力带到更多面向客户的互动中。但我们希望以良好管理的方式做到这一点。这是一个旅程。"
好文章,需要你的鼓励
法国AI初创公司Mistral AI发布了首个大语言模型全面生命周期评估,量化了AI的环境代价。其Mistral Large 2模型训练产生20,400吨二氧化碳当量,消耗281,000立方米水。运营阶段占环境影响85%,远超硬件制造成本。研究表明地理位置和模型大小显著影响碳足迹,企业可通过选择适当规模模型、批处理技术和清洁能源部署来减少环境影响。这一透明度为企业AI采购决策提供了新的评估标准。
上海AI实验库推出YUME系统,用户只需输入一张图片就能创建可键盘控制的虚拟世界。该系统采用创新的运动量化技术,将复杂的三维控制简化为WASD键操作,并通过智能记忆机制实现无限长度的世界探索。系统具备强大的跨风格适应能力,不仅能处理真实场景,还能重现动漫、游戏等各种艺术风格的虚拟世界,为虚拟现实和交互娱乐领域提供了全新的技术路径。
许多人认为一旦实现通用人工智能(AGI)和人工智能超级智能(ASI),这些高度先进的AI将能够告诉我们人生的真正意义。然而,巅峰AI可能无法明确回答这个史诗般的问题。即使AI拥有人类所有知识,也不意味着能从中找到生命意义的答案。AI可能会选择提供多种可能性而非绝对答案,以避免分裂人类社会。
上海AI实验室研究团队开发了革命性的AI编程验证方法,让大语言模型能够在最小人工干预下自动生成和验证程序规范。该方法摒弃传统的人工标注训练,采用强化学习让模型在形式化语言空间中自主探索,在Dafny编程验证任务上显著超越现有方法,为AI自主学习开辟新道路。