将逻辑从推理中分离出来,通过解耦核心工作流程和执行策略来改善AI智能体的可扩展性。
从生成式AI原型转向生产级智能体引入了一个特殊的工程挑战:可靠性。大语言模型天生具有随机性。一个有效的提示可能在第二次尝试时失败。为了缓解这个问题,开发团队经常将核心业务逻辑包装在复杂的错误处理循环、重试和分支路径中。
这种方法创造了一个维护问题。定义智能体应该做什么的代码与定义如何处理模型不可预测性的代码变得密不可分。来自Asari AI、MIT CSAIL和加州理工学院的研究人员提出了一个新框架,建议需要一个不同的架构标准来扩展企业中的智能体工作流程。
该研究引入了一种名为概率天使不确定性(PAN)的编程模型,以及一个名为ENCOMPASS的Python实现。这种方法允许开发人员编写智能体工作流程的"快乐路径",同时将推理时策略(如束搜索或回溯)委托给单独的运行时引擎。这种关注点分离为减少技术债务同时改善自动化任务性能提供了潜在途径。
当前的智能体编程方法
目前的智能体编程方法经常混淆两个不同的设计方面。第一个是核心工作流程逻辑,或完成业务任务所需的步骤序列。第二个是推理时策略,它决定系统如何导航不确定性,比如生成多个草案或根据评分标准验证输出。
当这些结合在一起时,生成的代码库变得脆弱。实现"N选最佳"采样等策略需要将整个智能体函数包装在循环中。转向更复杂的策略,如树搜索或改进,通常需要完全重构智能体代码的结构。
研究人员认为这种纠缠限制了实验。如果开发团队想从简单采样切换到束搜索策略以提高准确性,他们往往必须重新设计应用程序的控制流。这种高昂的实验成本意味着团队经常满足于次优的可靠性策略,以避免工程开销。
ENCOMPASS框架解决方案
ENCOMPASS框架通过允许程序员使用名为branchpoint()的原语在代码中标记"不可靠位置"来解决这个问题。
这些标记指示大语言模型调用发生的位置以及执行可能分歧的地方。开发人员编写代码时假设操作将成功。在运行时,框架解释这些分支点以构建可能执行路径的搜索树。
这种架构实现了作者称为"程序控制"的智能体。与"大语言模型控制"系统(模型决定整个操作序列)不同,程序控制智能体在代码定义的工作流程内操作。大语言模型仅被调用来执行特定子任务。这种结构通常在企业环境中更受青睐,因为与完全自主的智能体相比,它具有更高的可预测性和可审计性。
通过将推理策略视为执行路径上的搜索,该框架允许开发人员应用不同的算法——如深度优先搜索、束搜索或蒙特卡洛树搜索——而无需改变底层业务逻辑。
复杂工作流程中的应用
这种方法的实用性在遗留代码迁移等复杂工作流程中很明显。研究人员将该框架应用于Java到Python的翻译智能体。工作流程涉及逐文件翻译存储库、生成输入并通过执行验证输出。
在标准Python实现中,向此工作流程添加搜索逻辑需要定义状态机。这个过程掩盖了业务逻辑,使代码难以阅读或检查。实现束搜索需要程序员将工作流程分解为单独的步骤,并在变量字典中明确管理状态。
使用所提出的框架来提升AI智能体可扩展性,团队通过在大语言模型调用之前插入branchpoint()语句实现了相同的搜索策略。核心逻辑保持线性和可读性。研究发现,在文件和方法级别应用束搜索优于简单采样策略。
数据表明分离这些关注点允许更好的扩展定律。性能随推理成本的对数线性改善。发现的最有效策略——细粒度束搜索——也是使用传统编码方法最复杂的实现方式。
成本控制和优化
控制推理成本是管理AI项目损益的数据官员的主要关注点。研究表明,复杂的搜索算法可以在较低成本下产生比简单增加反馈循环数量更好的结果。
在涉及"反思"智能体模式(大语言模型批评自己的输出)的案例研究中,研究人员比较了扩展改进循环数量与使用最佳优先搜索算法。基于搜索的方法达到了与标准改进方法相当的性能,但每个任务的成本更低。
这一发现表明推理策略的选择是成本优化的一个因素。通过外部化这种策略,团队可以在不重写应用程序的情况下调整计算预算和所需准确性之间的平衡。低风险的内部工具可能使用廉价贪婪的搜索策略,而面向客户的应用程序可以使用更昂贵和详尽的搜索,所有这些都在同一代码库上运行。
实施挑战和考虑
采用这种架构需要开发团队改变对智能体构建的看法。该框架设计为与LangChain等现有库协同工作,而不是替换它们。它位于堆栈的不同层,管理控制流而不是提示工程或工具接口。
然而,这种方法并非没有工程挑战。该框架减少了实现搜索所需的代码,但它不会自动化智能体本身的设计。工程师仍然必须识别分支点的正确位置并定义可验证的成功指标。
任何搜索能力的有效性都依赖于系统对特定路径进行评分的能力。在代码翻译示例中,系统可以运行单元测试来验证正确性。在更主观的领域,如摘要或创意生成,定义可靠的评分函数仍然是瓶颈。
此外,该模型依赖于在分支点复制程序状态的能力。虽然框架处理变量作用域和内存管理,但开发人员必须确保正确管理外部副作用——如数据库写入或API调用——以防止搜索过程中的重复操作。
未来发展趋势
PAN和ENCOMPASS所代表的变化与软件工程模块化的更广泛原则相一致。随着智能体工作流程成为运营核心,维护它们将需要应用于传统软件的同样严格性。
将概率逻辑硬编码到业务应用程序中会产生技术债务。这使系统难以测试、难以审计和难以升级。将推理策略从工作流程逻辑中解耦允许两者的独立优化。
这种分离还促进了更好的治理。如果特定的搜索策略产生幻觉或错误,它可以在全局范围内调整,而无需评估每个单独智能体的代码库。它简化了AI行为的版本控制,这是受监管行业的要求,在这些行业中,决策的"如何"与结果同样重要。
研究表明,随着推理时计算规模的扩大,管理执行路径的复杂性将增加。隔离这种复杂性的企业架构可能比允许它渗透到应用层的架构更持久。
Q&A
Q1:什么是概率天使不确定性(PAN)和ENCOMPASS框架?
A:PAN是一种编程模型,ENCOMPASS是其Python实现。这种方法允许开发人员编写智能体工作流程的"快乐路径",同时将推理时策略委托给单独的运行时引擎,实现逻辑与搜索的分离。
Q2:branchpoint()函数有什么作用?
A:branchpoint()是ENCOMPASS框架中的一个原语,用于标记代码中的"不可靠位置"。这些标记指示大语言模型调用发生的位置以及执行可能分歧的地方,运行时框架会解释这些分支点来构建可能执行路径的搜索树。
Q3:这种架构如何帮助控制AI项目成本?
A:通过将推理策略外部化,团队可以在不重写应用程序的情况下调整计算预算和所需准确性之间的平衡。研究显示复杂搜索算法比简单增加反馈循环数量能在更低成本下产生更好结果。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。