多年来,Cursor、Windsurf和GitHub Copilot等代码编辑工具一直是AI驱动软件开发的标准。但随着智能体AI日益强大和情境化编程的兴起,一个微妙的转变正在改变AI系统与软件的交互方式。它们不再只是处理代码,而是越来越多地直接与所安装系统的shell进行交互。这是AI驱动软件开发方式的重大变化——尽管关注度不高,但可能对该领域的未来发展产生重要影响。
终端最为人熟知的是90年代黑客电影中的黑白屏幕——一种非常老式的程序运行和数据处理方式。虽然它在视觉上不如当代代码编辑器那么令人印象深刻,但如果你知道如何使用,它是一个极其强大的界面。虽然基于代码的智能体可以编写和调试代码,但终端工具通常是将软件从编写的代码转换为实际可用产品所必需的。
向终端转移最明显的信号来自主要实验室。自2月以来,Anthropic、DeepMind和OpenAI都发布了命令行编程工具(分别是Claude Code、Gemini CLI和CLI Codex),它们已经成为这些公司最受欢迎的产品之一。这种转变很容易被忽视,因为它们在很大程度上仍使用与之前编程工具相同的品牌。但在底层,智能体与其他计算机的交互方式,无论是在线还是离线,都发生了真正的变化。一些人认为这些变化才刚刚开始。
"我们的大胆预测是,未来95%的大语言模型与计算机的交互将通过类似终端的界面进行,"领先的终端专注基准测试TerminalBench的联合创建者Alex Shaw说。
基于终端的工具也正在崭露头角,而知名的基于代码的工具开始显得不稳定。AI代码编辑器Windsurf已经被收购大战撕裂,高级管理人员被Google挖走,剩余公司被Cognition收购——这使得消费产品的长期前景变得不确定。
与此同时,新研究表明程序员可能高估了传统工具的生产力收益。一项测试Windsurf主要竞争对手Cursor Pro的METR研究发现,虽然开发人员估计他们可以快20-30%完成任务,但观察到的过程实际上慢了近20%。简而言之,代码助手实际上在浪费程序员的时间。
这为Warp等公司留下了机会,Warp目前在TerminalBench上排名第一。Warp将自己定位为"智能体开发环境",是IDE程序和Claude Code等命令行工具之间的中间地带。但Warp创始人Zach Lloyd仍然看好终端,将其视为解决Cursor等代码编辑器无法处理问题的方法。
"终端在开发者技术栈中占据非常底层的位置,所以它是运行智能体最灵活的地方,"Lloyd说。
要理解新方法的不同之处,查看用于测量它们的基准测试会很有帮助。基于代码的工具生成专注于解决GitHub问题,这是SWE-Bench测试的基础。SWE-Bench上的每个问题都是来自GitHub的开放问题——本质上是一段不工作的代码。模型对代码进行迭代,直到找到可行的解决方案。像Cursor这样的集成产品已经构建了更复杂的问题解决方法,但GitHub/SWE-Bench模型仍然是这些工具解决问题的核心:从损坏的代码开始,将其转换为可工作的代码。
基于终端的工具采取更广阔的视角,超越代码本身,关注程序运行的整个环境。这包括编程,也包括更多面向DevOps的任务,如配置Git服务器或排除脚本无法运行的故障。在一个TerminalBench问题中,指令给出了一个解压程序和一个目标文本文件,挑战智能体逆向工程出匹配的压缩算法。另一个问题要求智能体从源代码构建Linux内核,但没有提到智能体必须自己下载源代码。解决这些问题需要程序员所需的那种顽强的问题解决能力。
"让TerminalBench困难的不仅仅是我们给智能体的问题,"Shaw说,"还有我们将它们置于其中的环境。"
至关重要的是,这种新方法意味着逐步解决问题——这正是让智能体AI如此强大的技能。但即使是最先进的智能体模型也无法处理所有这些环境。Warp在TerminalBench上获得高分是通过解决了刚刚超过一半的问题——这标志着基准测试的挑战性,也表明要释放终端的全部潜力还需要做很多工作。
不过,Lloyd相信我们已经达到了基于终端的工具能够可靠处理开发人员大部分非编程工作的程度——这是一个很难忽视的价值主张。
"如果你想想设置新项目、弄清楚依赖关系并让它运行起来的日常工作,Warp几乎可以自主完成这些工作,"Lloyd说。"如果它做不到,它会告诉你为什么。"
好文章,需要你的鼓励
美国网络安全和基础设施安全局指示联邦机构修补影响思科ASA 5500-X系列防火墙设备的两个零日漏洞CVE-2025-20362和CVE-2025-20333。这些漏洞可绕过VPN身份验证并获取root访问权限,已被黑客积极利用。攻击与国家支持的ArcaneDoor黑客活动有关,黑客通过漏洞安装bootkit恶意软件并操控只读存储器实现持久化。思科已发布补丁,CISA要求机构清点易受攻击系统并在今日前完成修补。
康考迪亚大学研究团队通过对比混合量子-经典神经网络与传统模型在三个基准数据集上的表现,发现量子增强模型在准确率、训练速度和资源效率方面均显著优于传统方法。研究显示混合模型的优势随数据集复杂度提升而增强,在CIFAR100上准确率提升9.44%,训练速度提升5-12倍,且参数更少。该成果为实用化量子增强人工智能铺平道路。
TimeWave是一款功能全面的计时器应用,超越了苹果自带时钟应用的功能。它支持创建流式计时器,让用户可以设置连续的任务计时,帮助专注工作。应用采用简洁的黑白设计,融入了Liquid Glass元素。内置冥想、番茄工作法、20-20-20护眼等多种计时模式,支持实时活动显示和Siri快捷指令。免费版提供基础功能,高级版需付费订阅。
沙特KAUST大学团队开发了专门针对阿拉伯语的AI模型家族"Hala",通过创新的"翻译再调优"技术路线,将高质量英语指令数据转化为450万规模的阿拉伯语语料库,训练出350M到9B参数的多个模型。在阿拉伯语专项测试中,Hala在同规模模型中表现最佳,证明了语言专门化策略的有效性,为阿拉伯语AI发展和其他语言的专门化模型提供了可复制的技术方案。