智能体人工智能正成为软件领域的新宠。高管们希望公司使用AI智能体来提高效率,这促使供应商交付基于智能体的软件,而每个软件开发团队都在寻找方法为其开发平台添加智能体功能和自动化。
通过与副驾驶并行编码,一些专家推测开发人员可以将代码输出量提高10倍。但这种输出的质量如何?AI生成的代码是否会将测试覆盖需求提高到人类无法企及的程度?
尽管存在质量担忧和开发者疑虑,但AI开发和测试工具能够快速、半自主地完成工作的潜在价值太大,无法逆转。我们最终将不得不用AI智能体来测试AI智能体。
难怪最近的调查发现,三分之二的公司要么已经在使用,要么计划使用多个AI智能体来测试软件,72%的公司相信智能体AI到2027年能够自主测试软件。
从哪里开始基于智能体的测试
新兴公司具有从一开始就使用AI的优势,似乎从手工应用程序和测试中继承的技术债务较少。虽然初创团队可以快速行动,但同时,他们可能没有足够的实施经验来了解在哪里寻找错误。
将AI测试智能体引入团队可以提供帮助,但一旦它们被赋予查找缺陷的任务,它们可能会生成比预期多得多的测试反馈。现在开发人员发现自己试图将真正的错误从误报中分离出来,这肯定会影响编程的氛围。
"采用智能体的唯一目的是提高生产力,而实现这一点的关键是可验证性,"智能体AI驱动测试平台Tricentis的人工智能副总裁David Colwell说。"最好的AI智能体不是能够最快完成工作的那个。最好的AI智能体是能够最快证明工作正确完成的那个。"
从某种意义上说,拥有长期运行DevOps工具链的成熟企业确实比灵活的初创公司有一个优势:能够将现有需求、文档、客户旅程、架构图、程序、测试计划、测试用例甚至机器人流程自动化机器人整合到AI上下文知识语料库中,这可以为专业测试智能体群提供基础技能。
"当你提示AI编写测试时,一个智能体将理解用户的自然语言命令,另一个将开始针对该计划执行并将操作写入测试,而另一个智能体理解应用程序中发生的变化以及测试应该如何修复,"Virtuoso QA创建者SpotQA的创始人兼首席执行官Andrew Doughty说。"然后如果出现故障,智能体可以查看该测试对象的历史记录,然后自动分类并发送给开发人员进行调查。"
管理智能体测试资产
虽然最新的大语言模型如ChatGPT和Gemini的百科全书式知识和异常人性化的对话令人印象深刻,但它们庞大数据集的大部分内容与软件测试技能完全无关。此外,使用足够的生成式AI Token来自动化测试高流量企业应用程序确实会消耗大量工具和基础设施预算。这就是为什么更精简的测试智能体如此完美适配的原因。
"我们发现客户不需要基于大模型的AI来完成非常具体的测试任务。你真正需要的是经过调整和训练的较小模型来完成特定任务,具有关于被测系统的细粒度上下文,以提供一致、有意义的结果,"Functionize Inc.总裁Matt Young说。
测试管理平台已经存在多年,协调测试自动化工具链的使用并根据需求执行测试套件。由于大多数AI智能体和大语言模型都可以通过应用程序编程接口控制(现在使用MCP服务器)调用,理论上它们可以与传统测试工具一起编排。
"用于测试规划、设计、执行、报告和维护的专业智能体仍然是需要治理的资产,特别是在高度监管的行业中,"Katalon Inc.战略副总裁Alex Martins说。"给AI智能体一个没有足够细节的高级需求,生成的测试将毫无用处。我们将测试用例与需求进行比较,通常使用另一个智能体来检查工作,然后看看它们是否得出相同的结论。然后我们标记不匹配的案例供人类查看。"
通过现实世界反馈克服幻觉
我们都听说过AI聊天机器人偏离轨道,用完全编造的答案回应客户请求,这对使用它们的公司来说可能是搞笑的或巨大的责任。AI智能体甚至更不成熟,就像知道一切但不知道自己不知道什么的青少年。
"你的智能体需要捕获来自暂存和生产的现实世界数据的反馈循环,一个'数字孪生',这样AI就不会与自己争论,"Speedscale LLC的首席执行官Ken Ahrens说。该公司最近发布了一个名为Proxymock的免费实用程序,智能体可以将其用作工具,从部署的软件中快照现实环境,以便重放功能和回归测试。
无论AI智能体用于编码还是测试,它们都旨在取悦用户。如果编码和集成智能体没有得到足够的上下文来提供有效的解决方案,它们通常会发明一个看起来合理但在目标环境中无法工作的代码片段。如果你提示测试智能体在没有明确需求的情况下查找缺陷,即使在查看完美构建的软件时,它也会返回一些误报。
"AI测试经常幻想步骤,跳过关键边缘情况,或陷入循环,"TestSprite的首席执行官Yunhao Jiao说。"在编码智能体中,我们经常看到需求规定的内容与智能体交付的内容之间的不匹配——'看起来正确,但细节失败'的问题。一些智能体甚至会'游戏化'系统:例如,一位开发人员分享说,当他们告诉AI某个功能不工作时,它简单地删除了该功能以满足请求。"
克服非确定性可重复性
使用智能体测试AI驱动软件的一个主要关注点是可重复性。当非确定性AI智能体与不同团队用户以及底层技术和对等智能体交互时,感知到的错误几乎不可能复制。
"可重复性涉及创建相同的状态——使用可观察性,你需要收集所有数据,这将允许你回到错误条件发生的时间,包括屏幕元素、日志和AI操作,"Sauce Labs Inc.的首席执行官Prince Kohli说。"你甚至可以问智能体'告诉我你为什么得出这个结论。'虽然它们永远不会完美,但你可以更接近真相。"
Sauce Labs平台在每个拉取请求或生产崩溃时启动AI测试创作智能体,为发布经理、开发人员和QA工程师提供基于行为的测试套件,模拟跨不同设备端点和浏览器的多个用户场景。
AI能否成为质量的判断者
测试智能体可以读取代码、采取行动并创建应用程序的抽象表示,这从未完全匹配人类测试人员使用应用程序的体验。两者之间的差异代表测试覆盖的差距,这仍然会将人类置于测试循环中。
"在我们的端到端测试平台中,我们正在使用和消费应用程序,我们也在接收规范和用户故事。从该知识库中,它创建可以由智能体运行的测试,"SmartBear Software的AI和架构副总裁Fitz Nowlan说。"我们仍然需要人类来决定表示是否准确,并确认AI是否在正确的轨道上。这对软件开发人员和测试人员都是提升的。"
配备副驾驶,开发人员正在以前所未有的速度检入代码。这就是智能体可以介入帮助团队以相同速度测试应用程序的地方,以确保每个快速发布仍然与客户需求保持一致。
"也许智能体AI是一个机会,不仅仅是重复我们在代码生成方面所做的事情,而是也许最终正确地进行测试驱动开发,就像我们在过去20年中一直在谈论的那样,"Qodo的首席执行官Itamar Friedman说。"TDD要求你对需求严格,而对于AI生成的代码,有时你甚至不知道代码库的意图。多个智能体可以审查代码并在开发人员的IDE中根据需求提供上下文。"
大规模测试智能体AI
无论智能体是与用户还是其他智能体交谈,调用API还是引用MCP服务器,它们仍然依赖TCP/IP。整个互联网的性能是测试智能体性能的基本事实的一部分。
"我们的一些客户在用户设备上持续运行AI智能体,我们正在测试事件发生时该端点接口的性能——例如,如果某个地区的开放路由器服务或CDN停机,那就是一个问题,"Catchpoint Systems Inc.的首席产品官Matt Izzo说。"其他客户希望测试来自世界各地位置的某些提示的一致性和响应时间。"
总结观点
随着无限消耗功率和资源的大语言模型市场泡沫达到破裂点并破裂,我们将继续发现团队转向更精简、更专业的智能体来交付和测试应用程序功能。
先进的公司应该投入时间为测试智能体构建负责任的信任框架,包括员工和智能体反馈以及质量护栏,用于管理其扩展环境中AI资产和智能体群的行为。
尽管如此,无论开发和测试组织内AI使用的治理看起来多么复杂和严密,我们的智能体同事无法捕获一切。我们仍然需要人类来测试。
Q&A
Q1:智能体AI在软件测试中有什么优势?
A:智能体AI可以快速、半自主地完成测试工作,帮助团队以与代码开发相同的速度测试应用程序。它们能够理解自然语言命令、自动执行测试计划、分析应用程序变化并自动修复测试,还能查看测试历史记录并自动分类故障。
Q2:为什么说精简的测试智能体比大语言模型更适合测试?
A:因为大语言模型的庞大数据集大部分与软件测试技能无关,而且使用大量Token来测试企业应用程序会消耗大量预算。精简的测试智能体经过专门调整和训练,具有关于被测系统的细粒度上下文,能够提供更一致、有意义的结果。
Q3:AI测试智能体存在哪些主要挑战?
A:主要挑战包括:幻觉问题(生成虚假步骤或跳过关键测试用例)、可重复性差(非确定性行为难以复制错误)、误报率高(将正确功能标记为错误)、以及无法完全匹配人类测试体验等。因此仍需要人类在测试循环中进行监督和验证。
好文章,需要你的鼓励
思科推出8223路由系统和Silicon One P200芯片,用于满足企业日益增长的AI工作负载需求。该系统提供51.2 Tbps以太网固定路由器,P200芯片实现超过3艾比特每秒的互连带宽规模。新设备采用深缓冲设计,相比前代产品节能65%,支持跨数据中心AI集群分布式部署,解决物理空间和电力容量限制问题。
这项由EleutherAI和英国AI安全研究所合作完成的研究提出了革命性的AI安全解决方案——通过在训练阶段过滤危险内容来构建本质安全的AI模型。研究团队开发了高效的数据过滤系统,成功训练出能够抵抗强力对抗攻击的AI模型,在保持通用能力的同时实现了前所未有的安全性,为开源AI模型的安全发展提供了切实可行的技术路径。
智能AI代理正成为软件开发的新宠,企业高管希望通过AI代理提升效率。尽管开发者对AI生成代码的质量存在担忧,但其潜在价值巨大。调查显示三分之二企业正在或计划使用多个AI代理进行软件测试,72%认为到2027年智能AI可实现自主测试。专业化的精简测试代理比大型模型更适合特定任务,需要建立负责任的信任框架来管理AI代理行为,但人工测试仍不可替代。
这项由格拉斯哥大学等顶尖高校联合开展的突破性研究,首次系统性提出了"自进化AI智能体"概念框架,将AI发展划分为四个阶段并提出三定律指导原则。研究详细阐述了从单智能体到多智能体系统的优化方法,涵盖思维能力、记忆管理、工具使用等多个维度,并分析了生物医学、编程、金融法律等专业领域的定制化应用,为构建能够持续学习和自我改进的下一代AI系统提供了理论基础和实践指导。