Anthropic安全防护团队研究员Nicholas Carlini在一项实验中,让新发布的Opus 4.6模型构建C编译器,这让他感到"兴奋"、"担忧"和"不安"。这一实验也让GitHub上的许多观察者产生了质疑。
Carlini在与Opus 4.6官方发布同步的博客中详细介绍了这项被他称为"智能体团队"的实验。他表示:"我让16个智能体从零开始编写基于Rust的C编译器,要求能够编译Linux内核。经过近2000次Claude Code会话和20000美元的API成本后,智能体团队产生了一个10万行的编译器,能够在x86、ARM和RISC-V架构上构建Linux 6.9。"
实验设计与自主工作机制
据Carlini介绍,在智能体团队中,"多个Claude实例在共享代码库上并行工作,无需人类主动干预"。一个关键任务是解决"需要操作员在线并可协同工作"的问题,这意味着消除Claude Code等待人类指示下一步行动的需求。
"为了促进持续的自主进展,我构建了一个框架,让Claude陷入简单循环中...当它完成一项任务时,立即开始下一项任务。"Carlini继续说道:"我让每个Claude智能体自己决定如何行动。大多数情况下,Claude会选择'下一个最明显的'问题。"
成本与效果分析
在近两周的时间里,通过近2000次Claude Code会话,Opus 4.6消耗了20亿个输入Token和生成了1.4亿个输出Token,总成本接近20000美元。Carlini表示,这使其成为"极其昂贵的项目",但"这个总成本只是我自己完成这项工作成本的一小部分,更不用说整个团队了"。
实验结果与局限性
实验产生的编译器能够成功构建许多项目,但并非全部。它还不是真正编译器的即插即用替代品。此外,生成的代码效率不高,Rust代码质量"合理但...远未达到专业Rust程序员可能产生的质量"。
Carlini得出结论:"智能体团队展示了自主实现整个复杂项目的可能性。"但作为前渗透测试专家,他表示完全自主开发带来了真正的风险。"程序员部署他们从未亲自验证过的软件的想法确实令人担忧。"最终,这个实验"让我兴奋,但也让我感到不安"。
社区反馈与争议
GitHub上的评论更加直接,特别是因为他们认为20000美元的价格标签忽略了其他一些因素,比如模型最初训练时使用的大量其他程序员代码。
用户mohswell评论道:"如果我去超市,偷了他们所有面包的一点点,然后把它们拼在一起,没人会说我从零开始做面包。他们会说我是小偷。如果这是'从零开始',那我的烹饪就是从农场到餐桌。"
用户Sambit003则表示:"评论区和问题本身就是每个人都在经历的'绝对电影'时刻。"
Q&A
Q1:Claude Opus 4.6智能体团队是如何工作的?
A:智能体团队中多个Claude实例在共享代码库上并行工作,无需人类主动干预。研究员构建了一个框架让Claude进入简单循环,当完成一项任务时立即开始下一项任务,每个智能体自己决定如何行动。
Q2:这个C编译器项目花费了多少成本和资源?
A:项目历时近两周,进行了近2000次Claude Code会话,消耗了20亿个输入Token和生成了1.4亿个输出Token,总成本接近20000美元。最终产生了一个10万行的编译器,能够在x86、ARM和RISC-V架构上构建Linux 6.9。
Q3:这个AI生成的编译器效果如何?
A:编译器能够成功构建许多项目,但并非全部,还不是真正编译器的即插即用替代品。生成的代码效率不高,Rust代码质量合理但远未达到专业程序员的水准。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。