多年来,Cursor、Windsurf和GitHub Copilot等代码编辑工具一直是AI驱动软件开发的标准。但随着智能体AI日益强大和情境化编程的兴起,一个微妙的转变正在改变AI系统与软件的交互方式。它们不再只是处理代码,而是越来越多地直接与所安装系统的shell进行交互。这是AI驱动软件开发方式的重大变化——尽管关注度不高,但可能对该领域的未来发展产生重要影响。
终端最为人熟知的是90年代黑客电影中的黑白屏幕——一种非常老式的程序运行和数据处理方式。虽然它在视觉上不如当代代码编辑器那么令人印象深刻,但如果你知道如何使用,它是一个极其强大的界面。虽然基于代码的智能体可以编写和调试代码,但终端工具通常是将软件从编写的代码转换为实际可用产品所必需的。
向终端转移最明显的信号来自主要实验室。自2月以来,Anthropic、DeepMind和OpenAI都发布了命令行编程工具(分别是Claude Code、Gemini CLI和CLI Codex),它们已经成为这些公司最受欢迎的产品之一。这种转变很容易被忽视,因为它们在很大程度上仍使用与之前编程工具相同的品牌。但在底层,智能体与其他计算机的交互方式,无论是在线还是离线,都发生了真正的变化。一些人认为这些变化才刚刚开始。
"我们的大胆预测是,未来95%的大语言模型与计算机的交互将通过类似终端的界面进行,"领先的终端专注基准测试TerminalBench的联合创建者Alex Shaw说。
基于终端的工具也正在崭露头角,而知名的基于代码的工具开始显得不稳定。AI代码编辑器Windsurf已经被收购大战撕裂,高级管理人员被Google挖走,剩余公司被Cognition收购——这使得消费产品的长期前景变得不确定。
与此同时,新研究表明程序员可能高估了传统工具的生产力收益。一项测试Windsurf主要竞争对手Cursor Pro的METR研究发现,虽然开发人员估计他们可以快20-30%完成任务,但观察到的过程实际上慢了近20%。简而言之,代码助手实际上在浪费程序员的时间。
这为Warp等公司留下了机会,Warp目前在TerminalBench上排名第一。Warp将自己定位为"智能体开发环境",是IDE程序和Claude Code等命令行工具之间的中间地带。但Warp创始人Zach Lloyd仍然看好终端,将其视为解决Cursor等代码编辑器无法处理问题的方法。
"终端在开发者技术栈中占据非常底层的位置,所以它是运行智能体最灵活的地方,"Lloyd说。
要理解新方法的不同之处,查看用于测量它们的基准测试会很有帮助。基于代码的工具生成专注于解决GitHub问题,这是SWE-Bench测试的基础。SWE-Bench上的每个问题都是来自GitHub的开放问题——本质上是一段不工作的代码。模型对代码进行迭代,直到找到可行的解决方案。像Cursor这样的集成产品已经构建了更复杂的问题解决方法,但GitHub/SWE-Bench模型仍然是这些工具解决问题的核心:从损坏的代码开始,将其转换为可工作的代码。
基于终端的工具采取更广阔的视角,超越代码本身,关注程序运行的整个环境。这包括编程,也包括更多面向DevOps的任务,如配置Git服务器或排除脚本无法运行的故障。在一个TerminalBench问题中,指令给出了一个解压程序和一个目标文本文件,挑战智能体逆向工程出匹配的压缩算法。另一个问题要求智能体从源代码构建Linux内核,但没有提到智能体必须自己下载源代码。解决这些问题需要程序员所需的那种顽强的问题解决能力。
"让TerminalBench困难的不仅仅是我们给智能体的问题,"Shaw说,"还有我们将它们置于其中的环境。"
至关重要的是,这种新方法意味着逐步解决问题——这正是让智能体AI如此强大的技能。但即使是最先进的智能体模型也无法处理所有这些环境。Warp在TerminalBench上获得高分是通过解决了刚刚超过一半的问题——这标志着基准测试的挑战性,也表明要释放终端的全部潜力还需要做很多工作。
不过,Lloyd相信我们已经达到了基于终端的工具能够可靠处理开发人员大部分非编程工作的程度——这是一个很难忽视的价值主张。
"如果你想想设置新项目、弄清楚依赖关系并让它运行起来的日常工作,Warp几乎可以自主完成这些工作,"Lloyd说。"如果它做不到,它会告诉你为什么。"
好文章,需要你的鼓励
数据分析平台公司Databricks完成10亿美元K轮融资,公司估值超过1000亿美元,累计融资总额超过200亿美元。公司第二季度收入运营率达到40亿美元,同比增长50%,AI产品收入运营率超过10亿美元。超过650家客户年消费超过100万美元,净收入留存率超过140%。资金将用于扩展Agent Bricks和Lakebase业务及全球扩张。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。
医疗信息管理平台Predoc宣布获得3000万美元新融资,用于扩大运营规模并在肿瘤科、研究网络和虚拟医疗提供商中推广应用。该公司成立于2022年,利用人工智能技术提供端到端平台服务,自动化病历检索并整合为可操作的临床洞察。平台可实现病历检索速度提升75%,临床审查时间减少70%,旨在增强而非替代临床判断。
上海AI实验室发布OmniAlign-V研究,首次系统性解决多模态大语言模型人性化对话问题。该研究创建了包含20万高质量样本的训练数据集和MM-AlignBench评测基准,通过创新的数据生成和质量管控方法,让AI在保持技术能力的同时显著提升人性化交互水平,为AI价值观对齐提供了可行技术路径。