Anthropic安全防护团队研究员Nicholas Carlini在一项实验中,让新发布的Opus 4.6模型构建C编译器,这让他感到"兴奋"、"担忧"和"不安"。这一实验也让GitHub上的许多观察者产生了质疑。
Carlini在与Opus 4.6官方发布同步的博客中详细介绍了这项被他称为"智能体团队"的实验。他表示:"我让16个智能体从零开始编写基于Rust的C编译器,要求能够编译Linux内核。经过近2000次Claude Code会话和20000美元的API成本后,智能体团队产生了一个10万行的编译器,能够在x86、ARM和RISC-V架构上构建Linux 6.9。"
实验设计与自主工作机制
据Carlini介绍,在智能体团队中,"多个Claude实例在共享代码库上并行工作,无需人类主动干预"。一个关键任务是解决"需要操作员在线并可协同工作"的问题,这意味着消除Claude Code等待人类指示下一步行动的需求。
"为了促进持续的自主进展,我构建了一个框架,让Claude陷入简单循环中...当它完成一项任务时,立即开始下一项任务。"Carlini继续说道:"我让每个Claude智能体自己决定如何行动。大多数情况下,Claude会选择'下一个最明显的'问题。"
成本与效果分析
在近两周的时间里,通过近2000次Claude Code会话,Opus 4.6消耗了20亿个输入Token和生成了1.4亿个输出Token,总成本接近20000美元。Carlini表示,这使其成为"极其昂贵的项目",但"这个总成本只是我自己完成这项工作成本的一小部分,更不用说整个团队了"。
实验结果与局限性
实验产生的编译器能够成功构建许多项目,但并非全部。它还不是真正编译器的即插即用替代品。此外,生成的代码效率不高,Rust代码质量"合理但...远未达到专业Rust程序员可能产生的质量"。
Carlini得出结论:"智能体团队展示了自主实现整个复杂项目的可能性。"但作为前渗透测试专家,他表示完全自主开发带来了真正的风险。"程序员部署他们从未亲自验证过的软件的想法确实令人担忧。"最终,这个实验"让我兴奋,但也让我感到不安"。
社区反馈与争议
GitHub上的评论更加直接,特别是因为他们认为20000美元的价格标签忽略了其他一些因素,比如模型最初训练时使用的大量其他程序员代码。
用户mohswell评论道:"如果我去超市,偷了他们所有面包的一点点,然后把它们拼在一起,没人会说我从零开始做面包。他们会说我是小偷。如果这是'从零开始',那我的烹饪就是从农场到餐桌。"
用户Sambit003则表示:"评论区和问题本身就是每个人都在经历的'绝对电影'时刻。"
Q&A
Q1:Claude Opus 4.6智能体团队是如何工作的?
A:智能体团队中多个Claude实例在共享代码库上并行工作,无需人类主动干预。研究员构建了一个框架让Claude进入简单循环,当完成一项任务时立即开始下一项任务,每个智能体自己决定如何行动。
Q2:这个C编译器项目花费了多少成本和资源?
A:项目历时近两周,进行了近2000次Claude Code会话,消耗了20亿个输入Token和生成了1.4亿个输出Token,总成本接近20000美元。最终产生了一个10万行的编译器,能够在x86、ARM和RISC-V架构上构建Linux 6.9。
Q3:这个AI生成的编译器效果如何?
A:编译器能够成功构建许多项目,但并非全部,还不是真正编译器的即插即用替代品。生成的代码效率不高,Rust代码质量合理但远未达到专业程序员的水准。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。