到处都有人在谈论AI智能体,仿佛只需要一个提示就能替代整个部门。这个梦想很诱人:能够处理任何问题的自主系统,无需护栏,无需约束,只要给它们你的AWS凭据,它们就能解决你所有的问题。但现实是世界并非如此运作,尤其是在企业环境中,可靠性不是可选项。
即使智能体有99%的准确率,这也不总是足够好。如果它在优化食品配送路线,这意味着每一百个订单中就有一个会送错地址。在商业环境中,这种失败率是不可接受的。它成本高昂、风险巨大,而且很难向客户或监管机构解释。
在金融、医疗和运营等现实环境中,真正能产生价值的AI系统与这些前沿幻想完全不同。它们不是在开放世界中即兴发挥;它们在解决定义明确的问题,有清晰的输入和可预测的结果。
如果我们继续用半成熟的技术追逐开放世界问题,我们将浪费时间、金钱和信任。但如果我们专注于眼前的问题,那些有明确ROI和明确边界的问题,我们今天就能让AI发挥作用。
本文旨在破除炒作,构建真正能交付、运行和帮助的AI智能体。
**开放世界炒作的问题**
科技行业喜欢登月项目(坦率地说,我也是)。现在,登月项目是开放世界AI——能够处理任何事情、适应新情况、即时学习并在不完整或模糊信息下运行的智能体。这是通用智能的梦想:不仅能推理,还能即兴创作的系统。
什么让问题成为"开放世界"?
开放世界问题由我们不知道的东西定义。
更正式地说,借用定义这些复杂环境的研究,完全开放的世界具有两个核心属性:
时间和空间是无界的:智能体的过往经验可能不适用于新的、未见过的场景。
任务是无界的:它们不是预先确定的,可以动态出现。
在这样的环境中,AI在不完整信息下运作;它不能假设未知为真的就是假的,它就是未知的。AI被期望在导航世界时适应这些不可预见的变化和新任务。这对当前AI能力来说是一个极其困难的问题集合。
**大多数企业问题并非如此**
相比之下,封闭世界问题是范围已知、规则清晰、系统可以假设拥有所有相关数据的问题。如果某事不是明确为真,就可以视为假。这些是大多数企业每天实际面临的问题:发票匹配、合同验证、欺诈检测、理赔处理、库存预测。
这些不是通常成为头条的用例,但它们是企业真正关心解决的问题。
**炒作和不行动的风险**
然而,炒作是有害的:通过将标准设定为开放世界通用智能,我们让企业AI感觉遥不可及。领导者听说智能体能做一切,他们就僵住了,因为不知道从哪里开始。问题感觉太大、太模糊、太冒险。
这就像试图在还没有制造出可工作的内燃机之前就设计自动驾驶汽车。梦想令人兴奋,但跳过基础知识注定失败。
**解决眼前的问题**
开放世界问题适合做精彩演示和更好的融资。但封闭世界问题是今天真正价值所在。它们是可解决的、可测试的、可自动化的。它们就存在于每个企业内部,等待合适的系统来解决。
问题不是AI最终是否会解决开放世界问题。问题是:你现在实际能部署什么来让你的业务更快、更智能、更可靠?
**企业级智能体的真实面貌**
当人们今天想象AI智能体时,他们往往想到一个聊天窗口。用户输入提示,智能体回应有用的答案(甚至可能触发一两个工具)。这对于演示和消费者应用来说很好,但这不是企业AI在实践中的实际工作方式。
在企业中,最有用的智能体不是用户启动的,而是自主的。
它们不是闲置等待人类提示。它们是长期运行的进程,对流经业务的数据做出反应。它们做决策、调用服务、产生输出,持续且异步,无需被告知何时开始。
想象一个监控新发票的智能体。每次有发票到达,它提取相关字段,与开放采购订单核对,标记不匹配项,将发票路由到批准或拒绝,无需任何人要求它这样做。它只是监听事件("收到新发票")然后开始工作。
或者考虑客户入职。智能体可能监控新账户创建的时刻,然后启动级联:验证文档、运行客户了解(KYC)检查、个性化欢迎体验并安排后续消息。用户永远不知道智能体的存在。它只是运行。可靠地。实时地。
这就是企业级智能体的样子:
它们是事件驱动的:由系统变化触发,而非用户提示。 它们是自主的:无需人工启动即可行动。 它们是连续的:不会为单个任务启动然后消失。 它们主要是异步的:在后台工作,不在阻塞工作流中。
**智能体是对事件反应和发出、携带上下文、使用模型的微服务**
你不是通过微调巨大模型来构建这些智能体。你通过连接现有模型、工具和逻辑来构建它们。这是软件工程问题,不是建模问题。
从核心来说,企业级智能体只是具有智能的现代微服务。你给它们访问事件的权限,给它们正确的上下文,让大语言模型驱动推理。
智能体 = 事件驱动微服务 + 上下文数据 + 大语言模型
做得好,这是一个强大的架构模式。这也是思维方式的转变。构建智能体不是追逐通用人工智能(AGI)。它是将实际问题分解为更小的步骤,然后组装能处理它们的专业化、可靠组件,就像我们在好的软件系统中一直做的那样。
**我们以前解决过这类问题**
如果这听起来很熟悉,确实应该如此。我们以前经历过这些。
当单体架构无法扩展时,我们将其分解为微服务。当同步API导致瓶颈和脆弱系统时,我们转向事件驱动架构。这些是构建现实世界系统几十年来的艰难教训。它们有效是因为为复杂系统带来了结构和确定性。
我担心我们开始忘记那段历史,在构建AI的方式上重复同样的错误。
因为这不是新问题。这是同样的工程挑战,只是有了新组件。现在,企业级AI需要让我们走到今天的同样原则:清晰的边界、松散耦合和从一开始就设计为可靠的系统。
**AI模型不是确定性的,但你的系统可以是**
大多数企业中值得解决的问题是封闭世界的:有已知输入、清晰规则和可测量结果的问题。但我们使用的模型,特别是大语言模型,本质上是非确定性的。它们在设计上是概率性的。相同输入可能产生不同输出,取决于上下文、采样或温度。
这在回答提示时很好。但在运行业务流程时?这种不可预测性是负担。
所以如果你想构建生产级AI系统,你的工作很简单:在确定性基础设施中包装非确定性模型。
**在模型周围构建确定性**
如果你知道特定工具应该用于任务,不要让模型决定,直接调用工具。
如果你的工作流可以静态定义,不要依赖动态决策,使用确定性调用图。
如果输入和输出是可预测的,不要通过过度复杂化智能体逻辑引入模糊性。
太多团队在每个智能体中重新发明运行时编排,让大语言模型决定下一步做什么,即使步骤是提前已知的。你只是让自己的生活更困难。
**事件驱动多智能体系统的闪光点**
事件驱动多智能体系统将问题分解为更小的步骤。当你将每个步骤分配给专用智能体并用结构化事件触发它们时,你最终得到一个松散耦合、完全可追踪的系统,按照企业系统应有的方式工作:具有可靠性、问责制和明确控制。
因为它是事件驱动的:
智能体不需要了解彼此。它们只是响应事件。 工作可以并行进行,加速复杂流程。 故障是隔离的,可通过事件日志或重试恢复。 你可以独立观察、调试和测试每个组件。
**不要追逐魔法**
封闭世界问题不需要魔法。它们需要扎实的工程。这意味着将大语言模型的灵活性与良好软件工程的结构相结合。如果某事可以做成确定性的,就让它确定性。为真正需要判断的部分保留模型。
这就是如何构建不仅在演示中看起来好,而且在生产中实际运行、扩展和交付的智能体。
**为什么在开放世界中测试如此困难**
构建智能体中最被忽视的挑战之一是测试,但它对企业来说绝对必要。
在开放世界环境中,几乎不可能做好。问题空间是无界的,所以输入可以是任何东西,期望的输出通常是模糊的,甚至成功的标准可能根据上下文而变化。
你如何为一个可以被要求做几乎任何事情的系统编写测试套件?你不能。
这就是为什么开放世界智能体在实践中如此难以验证。你可以测量孤立行为或基准测试狭窄任务,但除非你以某种方式看到它在组合大量情况空间中执行,否则你无法端到端信任系统,而没有人做到这点。
相比之下,封闭世界问题使测试变得可行。输入是受约束的。期望输出是可定义的。你可以编写断言。你可以模拟边缘情况。你可以知道"正确"是什么样子。
如果你更进一步,使用事件驱动架构将智能体逻辑分解为更小、范围明确的组件,它变得更加可行。系统中每个智能体都有狭窄的责任。其行为可以独立测试,其输入和输出可以模拟或重放,其性能可以孤立评估。
当系统是模块化的,每个模块的范围是封闭世界时,你可以构建真正给你信心的测试集。
这是生产AI信任的基础。
**构建正确的基础**
企业AI的未来不是从AGI开始。它从有效的自动化开始。这意味着专注于结构化、有界且富有真正影响机会的封闭世界问题。
你不需要能做一切的智能体。你需要能可靠地做某事的系统:
正确路由的理赔。 准确解析的文档。 及时跟进的客户。
这些胜利累积起来。它们降低成本、释放时间,建立对AI作为技术栈可靠部分的信任。
实现这些不需要提示工程的突破或押注下一个模型神奇地泛化。它需要做优秀工程师一直在做的事:分解问题、构建可组合系统、以可测试和可观察的方式连接组件。
事件驱动多智能体系统不是银弹,它们只是以结构化方式使用不完美工具的实用架构。它们让你隔离需要智能的地方,包含不需要的地方,构建即使个别部分不可预测也能可预测行为的系统。
这不是追逐前沿。这是将基本软件工程应用到新一类问题上。
Sean Falconer是Confluent的常驻AI企业家。
好文章,需要你的鼓励
AI技术的最新应用展示了其在日常办公场景中的强大能力。用户现在可以通过简单的截图操作,让AI智能识别和提取图像中的时间、地点、事件等关键信息,并自动创建相应的日历事件。这种功能大大简化了日程管理流程,提高了工作效率,代表了AI技术在实用性和智能化方面的重要突破。
杭州电子科技大学研究团队开发出CRISP-SAM2智能医学影像分析系统,能够结合文字描述和CT图像同时进行器官识别。该系统通过跨模态语义交互技术,无需医生手动提示即可精准分割18种人体器官,在七个数据集测试中表现优异,为医学影像诊断提供了新的AI解决方案。
最新调查显示,91%的AI用户都有首选的聊天机器人工具。其中ChatGPT以28%的占比位居榜首,其次是谷歌Gemini(23%)、Meta AI和亚马逊Alexa(各18%)、苹果Siri(16%)。用户主要将这些AI工具用于撰写邮件、研究感兴趣话题和管理待办事项。报告指出,61%的美国人在过去半年内使用过AI,19%的人每天都在使用。
伊利诺伊大学研究团队开发了HalluSegBench评估系统,首次系统性揭示AI视觉分割模型的"幻觉"问题。通过创建1340对对比图像和四种新评估指标,研究发现当前先进AI模型普遍存在错误识别不存在物体的严重缺陷,且视觉变化比文字变化更容易引发幻觉。该研究为提升AI系统可靠性提供了重要工具和理论基础。