在伦敦举办的Unscripted活动上,DevOps公司Harness展示了其最新的AI驱动模块,包括AI管道构建器、AI测试自动化、构建失败时的自主代码修复、AI应用安全(AppSec),甚至还有AI驱动的混沌测试,通过引入随机故障来测试系统弹性。
根据Harness的数据,软件团队只有30-40%的时间用于规划和编码,其余时间都被测试、安全、部署和应用优化所占用。这意味着通过将AI辅助扩展到这些编码后的流程中,可以实现巨大的生产力提升。
考虑到AI的非确定性以及容易出现幻觉和提示注入等问题,将安全关键的DevOps流程委托给这项技术是否安全?
首席执行官兼联合创始人Jyoti Bansal告诉我们,与通用大语言模型相比,Harness AI智能体出现幻觉的可能性更小。对于创建构建和部署管道等任务,"我们的智能体会将任务分解为更小的任务,我们为这些更小的任务配备了专门构建的智能体,这些智能体还会相互验证彼此的输出。"
他说,另一个关键因素是上下文,即对组织的了解,以及"你过去做过的事情、你的构建、你的安全测试、你的代码更改、你的服务及其依赖关系的知识。智能体会使用这些信息,这样就不会出现不准确和幻觉。"
此外,他向我们保证,"这一切都不是在没有人类输入的情况下完成的...我们的AI不会直接进行生产部署。我们的AI是在创建用于生产部署的确定性管道。"他说,虽然无法完全消除非确定性,但在AI创建自动化之后,"你要审核它,检查它的合规性和治理...我们不是通过AI进行部署,而是通过AI创建部署管道和自动化。然后它就是确定性和可重复的,因为在运行时没有AI参与。"
不过,人工检查的问题,有时被称为"人在环路中",是困难的。在活动主题演讲中,Bansal描述了以前无法创建用户界面测试的非专家现在如何通过用简单的英语描述需求来完成测试。他还说,使用AI生成的代码意味着代码量可能是以前的四倍,这使得人类很难检查每一行代码。Bansal告诉我们:"这就是为什么你需要更加稳健的检查和平衡流程。整个过程都必须显著改善,包括所有的测试、部署、回滚、治理、合规等各个方面。"
考虑到在Harness平台上,所有这些流程本身都可能包含AI,这是否意味着我们在要求AI检查自己的输出?
"你可以让AI检查AI做了什么,但我总是建议你需要两个不同的AI。不要相信一个AI既做会计又做审计,就像你不会相信一个人既做账又做审计一样。"
一个相关的问题是,如果人们越来越依赖AI,那么验证代码或复杂流程所需的人类技能本身可能更难找到。
Bansal告诉我们:"我认为工程师需要AI任务管理者类型的技能。优秀的工程师必须了解向AI询问什么,以及如何更好、更恰当地做到这一点...这些正在成为顶级技能。"
他说,使用AI是"一个迭代过程。你问AI某件事,你审查它,然后你让它做某件事,然后你审查它。这成为了你的技能,我认为这将是软件工程完成方式的核心。"
这让人想起最新Google DORA(DevOps研究与评估)报告中的结论,实际上DORA研究也在Unscripted主题演讲中被引用。
对于AI怀疑论者来说,有一个好消息。Harness平台中的AI是可选的。Bansal说:"你可以关闭AI中的所有功能,也可以分段开启。你可以说,我接受AI用于测试,但不希望AI用于我的安全运行时保护。你也可以为不同的团队和应用程序进行设置...存在不同程度的舒适度和怀疑态度,我们允许这种情况。"
Harness DevOps平台运行在Kubernetes上,控制平面可以在云端或本地部署(根据Bansal的说法,80%在云端),以及始终在本地或组织虚拟私有云上运行的Delegate工作节点。小团队有免费计划,最多500用户的基础版每用户每月30美元,企业版通常每年10-20万美元。
Q&A
Q1:Harness的AI智能体如何避免AI幻觉问题?
A:Harness通过将复杂任务分解为更小的任务,为每个小任务配备专门的智能体,并让这些智能体相互验证输出来减少幻觉。同时利用组织的历史数据、构建信息、安全测试和代码更改等上下文信息,提高AI输出的准确性。
Q2:使用AI生成代码后,人类如何有效检查四倍增长的代码量?
A:Bansal建议建立更加稳健的检查和平衡流程,包括改善测试、部署、回滚、治理、合规等各个环节。同时强调这是一个迭代过程,需要工程师具备AI任务管理技能,学会如何正确地询问和审查AI的输出。
Q3:Harness DevOps平台的AI功能是强制使用的吗?
A:不是强制的。用户可以完全关闭AI功能,也可以选择性地开启部分功能。比如可以接受AI用于测试但拒绝用于安全运行时保护,还可以为不同团队和应用程序分别设置,满足不同程度的接受度和需求。
好文章,需要你的鼓励
OpenAI发布ChatGPT新功能Pulse,可在用户睡眠期间生成个性化报告,提供5-10条简报帮助用户快速了解当日重要信息。该功能旨在让用户像查看社交媒体一样优先使用ChatGPT。Pulse首先向每月200美元的Pro订阅用户开放,未来计划扩展至所有用户。功能支持连接Gmail、日历等应用,可解析邮件、生成日程安排。报告以卡片形式展示,包含AI生成的图像和文本,涵盖新闻摘要、个性化建议等内容。
这项由谷歌DeepMind研究团队完成的开创性研究首次系统阐述了AI智能体经济的概念框架。研究提出"沙盒经济"模型,从起源性质和边界渗透性两个维度分析AI智能体经济形态,预测未来将出现自然涌现且高度透水的AI经济网络。研究详细探讨了科学加速、机器人协调、个人助手等应用场景,提出基于拍卖机制的公平资源分配方案和使命经济概念,并深入分析了技术基础设施需求、社区货币应用以及相关风险防范措施。
AI平台公司Clarifai发布新推理引擎,声称能让AI模型运行速度提升一倍,成本降低40%。该系统采用多种优化技术,从CUDA内核到高级推测解码,能在相同硬件上获得更强推理性能。第三方测试显示其在吞吐量和延迟方面创下行业最佳记录。该产品专门针对推理过程优化,特别适用于需要多步骤响应的智能体和推理模型。
中国人民大学研究团队提出LoFT方法,通过参数高效微调基础模型解决长尾半监督学习中的数据不平衡问题。该方法利用预训练模型的良好校准特性改进伪标签质量,并扩展出LoFT-OW版本处理开放世界场景。实验显示,仅使用传统方法1%的数据量就能取得更优性能,为AI公平性和实用性提供了新的解决方案。