多年来,Cursor、Windsurf和GitHub Copilot等代码编辑工具一直是AI驱动软件开发的标准。但随着智能体AI日益强大和情境化编程的兴起,一个微妙的转变正在改变AI系统与软件的交互方式。它们不再只是处理代码,而是越来越多地直接与所安装系统的shell进行交互。这是AI驱动软件开发方式的重大变化——尽管关注度不高,但可能对该领域的未来发展产生重要影响。
终端最为人熟知的是90年代黑客电影中的黑白屏幕——一种非常老式的程序运行和数据处理方式。虽然它在视觉上不如当代代码编辑器那么令人印象深刻,但如果你知道如何使用,它是一个极其强大的界面。虽然基于代码的智能体可以编写和调试代码,但终端工具通常是将软件从编写的代码转换为实际可用产品所必需的。
向终端转移最明显的信号来自主要实验室。自2月以来,Anthropic、DeepMind和OpenAI都发布了命令行编程工具(分别是Claude Code、Gemini CLI和CLI Codex),它们已经成为这些公司最受欢迎的产品之一。这种转变很容易被忽视,因为它们在很大程度上仍使用与之前编程工具相同的品牌。但在底层,智能体与其他计算机的交互方式,无论是在线还是离线,都发生了真正的变化。一些人认为这些变化才刚刚开始。
"我们的大胆预测是,未来95%的大语言模型与计算机的交互将通过类似终端的界面进行,"领先的终端专注基准测试TerminalBench的联合创建者Alex Shaw说。
基于终端的工具也正在崭露头角,而知名的基于代码的工具开始显得不稳定。AI代码编辑器Windsurf已经被收购大战撕裂,高级管理人员被Google挖走,剩余公司被Cognition收购——这使得消费产品的长期前景变得不确定。
与此同时,新研究表明程序员可能高估了传统工具的生产力收益。一项测试Windsurf主要竞争对手Cursor Pro的METR研究发现,虽然开发人员估计他们可以快20-30%完成任务,但观察到的过程实际上慢了近20%。简而言之,代码助手实际上在浪费程序员的时间。
这为Warp等公司留下了机会,Warp目前在TerminalBench上排名第一。Warp将自己定位为"智能体开发环境",是IDE程序和Claude Code等命令行工具之间的中间地带。但Warp创始人Zach Lloyd仍然看好终端,将其视为解决Cursor等代码编辑器无法处理问题的方法。
"终端在开发者技术栈中占据非常底层的位置,所以它是运行智能体最灵活的地方,"Lloyd说。
要理解新方法的不同之处,查看用于测量它们的基准测试会很有帮助。基于代码的工具生成专注于解决GitHub问题,这是SWE-Bench测试的基础。SWE-Bench上的每个问题都是来自GitHub的开放问题——本质上是一段不工作的代码。模型对代码进行迭代,直到找到可行的解决方案。像Cursor这样的集成产品已经构建了更复杂的问题解决方法,但GitHub/SWE-Bench模型仍然是这些工具解决问题的核心:从损坏的代码开始,将其转换为可工作的代码。
基于终端的工具采取更广阔的视角,超越代码本身,关注程序运行的整个环境。这包括编程,也包括更多面向DevOps的任务,如配置Git服务器或排除脚本无法运行的故障。在一个TerminalBench问题中,指令给出了一个解压程序和一个目标文本文件,挑战智能体逆向工程出匹配的压缩算法。另一个问题要求智能体从源代码构建Linux内核,但没有提到智能体必须自己下载源代码。解决这些问题需要程序员所需的那种顽强的问题解决能力。
"让TerminalBench困难的不仅仅是我们给智能体的问题,"Shaw说,"还有我们将它们置于其中的环境。"
至关重要的是,这种新方法意味着逐步解决问题——这正是让智能体AI如此强大的技能。但即使是最先进的智能体模型也无法处理所有这些环境。Warp在TerminalBench上获得高分是通过解决了刚刚超过一半的问题——这标志着基准测试的挑战性,也表明要释放终端的全部潜力还需要做很多工作。
不过,Lloyd相信我们已经达到了基于终端的工具能够可靠处理开发人员大部分非编程工作的程度——这是一个很难忽视的价值主张。
"如果你想想设置新项目、弄清楚依赖关系并让它运行起来的日常工作,Warp几乎可以自主完成这些工作,"Lloyd说。"如果它做不到,它会告诉你为什么。"
好文章,需要你的鼓励
一加正式推出AI功能Plus Mind和Mind Space,将率先在一加13和13R上线。Plus Mind可保存、建议、存储和搜索屏幕内容,并将信息整理到Mind Space应用中。该功能可通过专用按键或手势激活,能自动创建日历条目并提供AI搜索功能。一加还计划推出三阶段AI战略,包括集成大语言模型和个人助手功能,同时将推出AI语音转录、通话助手和照片优化等工具。
北航团队推出Easy Dataset框架,通过直观的图形界面和角色驱动的生成方法,让普通用户能够轻松将各种格式文档转换为高质量的AI训练数据。该工具集成了智能文档解析、混合分块策略和个性化问答生成功能,在金融领域实验中显著提升了AI模型的专业表现,同时保持通用能力。项目已开源并获得超过9000颗GitHub星标。
预计到2035年,数据中心用电需求将增长一倍以上,达到440TWh,相当于整个加利福尼亚州的用电量。AI工作负载预计将占2030年数据中心需求的50-70%。传统冷却系统电机存在功率浪费问题,通常在30-50%负载下运行时效率急剧下降。采用高效率曲线平坦的适配电机可显著降低冷却系统功耗,某大型数据中心通过优化电机配置减少了近4MW冷却功耗,为13500台AI服务器腾出空间,年增收入900万美元。
卢森堡计算机事件响应中心开发的VLAI系统,基于RoBERTa模型,能够通过阅读漏洞描述自动判断危险等级。该系统在60万个真实漏洞数据上训练,准确率达82.8%,已集成到实际安全服务中。研究采用开源方式,为网络安全专家提供快速漏洞风险评估工具,有效解决了官方评分发布前的安全决策难题。