企业在构建和扩展智能体时需要认识到一个现实:智能体的构建方式与传统软件截然不同。
Writer公司首席执行官兼联合创始人May Habib表示,智能体在构建方式、运行机制和改进方法上都存在"本质差异"。这意味着在处理自适应系统时,传统的软件开发生命周期模式已不再适用。
"智能体无法可靠地遵循规则,"Habib在VB Transform大会上表示。"它们是结果驱动的,具备解释和适应能力,其行为只有在真实环境中才会显现。"
这些洞察来自Habib帮助数百家企业客户构建和扩展企业级智能体的实践经验。据透露,超过350家财富1000强企业是Writer的客户,预计到2025年底,超过一半的财富500强企业将通过Writer扩展智能体应用。
使用非确定性技术产生强大输出可能"极其复杂",特别是在系统性扩展智能体时。即使企业团队可以在没有产品经理和设计师的情况下启动智能体,Habib认为在协作、构建、迭代和维护智能体时仍需要"产品经理思维"。
"无论是不幸还是幸运,如果IT部门不引导业务合作伙伴采用新的构建方式,最终将承担所有责任。"
**目标导向智能体的优势**
思维转变包括理解智能体的结果导向本质。例如,许多客户要求智能体协助法务团队审查或修改合同,但这种要求过于宽泛。相反,目标导向方法意味着设计智能体来减少审查和修改合同的时间。
"在传统软件开发生命周期中,你为一组确定性的可预测步骤进行设计,"Habib说。"输入输出更加确定性。但对于智能体,你需要塑造智能体行为,提供上下文并引导智能体的决策制定。"
另一个差异是为智能体构建包含业务逻辑的蓝图,而不是提供工作流程。这包括设计推理循环,与领域专家合作映射促进期望行为的流程。
虽然关于扩展智能体的讨论很多,Writer仍在帮助大多数客户逐个构建智能体。这是因为首先需要明确谁拥有和审计智能体,谁确保其保持相关性,以及谁检查是否仍在产生期望结果。
"如果没有新的构建和扩展方法,人们很快就会遇到扩展瓶颈,"Habib说。"当组织负责任管理智能体的能力超过各部门开发pace时,就会遇到这个瓶颈。"
**智能体与软件的质量保证差异**
智能体的质量保证也有所不同。智能体评估需要考虑非二进制行为,评估智能体在真实情况下的表现,而不是客观清单。失败并不总是明显的,也不像检查某些功能是否中断那样黑白分明。相反,Habib建议检查智能体是否行为良好,询问安全措施是否有效,评估结果和意图:"目标不是完美,而是行为信心,因为这里存在很多主观性。"
不理解迭代重要性的企业最终会陷入"持续的网球比赛,直到双方都不想再玩"。团队接受智能体不完美也很重要,更多地关注"安全发布、快速运行和反复迭代"。
尽管面临挑战,已有AI智能体帮助企业带来新收入的实例。Habib提到一家大型银行与Writer合作开发基于智能体的系统,通过将新客户引入多个产品线,创造了价值6亿美元的新追销渠道。
**AI智能体的新版本控制**
智能体维护也不同。传统软件维护涉及在出现问题时检查代码,但AI智能体需要新的版本控制来管理所有可能影响行为的因素。这还需要适当的治理,确保智能体随时间保持有用性,而不是产生不必要的成本。
由于模型与AI智能体之间没有清晰映射,维护包括检查提示、模型设置、工具架构和内存配置。这也意味着完全跟踪输入、输出、推理步骤、工具调用和人机交互的执行过程。
"你可以更新大语言模型提示,观察智能体行为完全改变,即使git历史中实际上没有任何变化,"Habib说。"模型链接变化,检索索引更新,工具API演进,相同提示的行为突然不如预期...感觉像在调试幽灵。"
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。