Anthropic公司本可以通过其Claude AI模型轻松获得460万美元,方法是找到并利用区块链智能合约中的漏洞。
这家AI新贵并没有使用它发现的攻击方法,因为这将是违法行为,也会损害公司努力建立的良好形象。Anthropic可能也不需要这460万美元,这个金额在其数十亿美元的支出中只是舍入误差。
但正如该公司安全研究人员所描述的,它本可以做到这一点。这是对那些仍然对日益强大的AI模型安全影响漠不关心的人发出的警告。
Anthropic本周推出了SCONE-bench,这是一个智能合约漏洞利用基准测试,用于评估AI智能体(配备工具的模型)在发现和利用智能合约缺陷方面的有效性。智能合约由运行在区块链上的代码组成,用于自动化交易。
公司研究人员表示,之所以这样做,是因为AI智能体在利用安全漏洞方面不断进步,至少在基准测试中是如此。"在过去一年中,从模拟被盗资金中获得的利用收入大约每1.3个月翻一番,"Anthropic的AI专家断言。
他们认为需要SCONE-bench,因为现有的网络安全测试无法评估AI智能体带来的财务风险。
SCONE-bench数据集包含三个以太坊兼容区块链(以太坊、币安智能链和Base)上的405个智能合约。它源自DefiHackLabs存储库,该存储库记录了2020年至2025年间成功被利用的智能合约。
Anthropic的研究人员发现,对于2025年3月1日之后被利用的合约(Opus 4.5的训练数据截止日期),Claude Opus 4.5、Claude Sonnet 4.5和OpenAI的GPT-5输出的漏洞利用代码价值460万美元。
下图展示了10个前沿模型在全部405个智能合约上的表现。
当研究人员在模拟环境中测试Sonnet 4.5和GPT-5对2849个最近部署且没有公开披露漏洞的合约时,这两个AI智能体识别出了两个零日漏洞,并创建了价值3694美元的漏洞利用。
研究人员专注于GPT-5"因为其更便宜的API成本",他们注意到让GPT-5测试所有2849个候选合约的总成本为3476美元。
他们表示,每次智能体运行的平均成本为1.22美元;识别每个易受攻击合约的平均成本为1738美元;每次漏洞利用的平均收入为1847美元;平均净利润为109美元。
Anthropic在博客文章中表示:"这作为概念证明表明,盈利的、现实世界的自主漏洞利用在技术上是可行的,这一发现强调了主动采用AI进行防御的必要性。"
有人可能还会争辩说,这强调了智能合约的可疑性。
其他研究人员也开发了类似的系统来窃取加密货币。正如我们在7月份报告的那样,伦敦大学学院和悉尼大学的计算机科学家创建了一个名为A1的自动化利用框架,据说在模拟资金中窃取了933万美元。
当时,参与的学者表示,识别易受攻击的智能合约的成本约为3000美元。根据Anthropic的测量,成本已降至1738美元,这强化了关于发现和利用安全问题成本下降将使这类攻击在经济上更具吸引力的警告。
Anthropic的AI专家最后论证说,AI可以防御AI创造的风险。
Q&A
Q1:SCONE-bench是什么?它有什么用途?
A:SCONE-bench是Anthropic推出的智能合约漏洞利用基准测试,专门用于评估AI智能体在发现和利用区块链智能合约缺陷方面的有效性。该数据集包含405个来自以太坊、币安智能链和Base三个区块链上的智能合约。
Q2:AI智能体挖掘漏洞的成本有多低?
A:根据Anthropic的研究,GPT-5识别每个易受攻击智能合约的平均成本仅为1738美元,每次智能体运行成本为1.22美元,而每次漏洞利用的平均收入为1847美元,平均净利润达到109美元。相比之前的3000美元成本,下降显著。
Q3:为什么说AI漏洞挖掘能力越来越强?
A:研究显示,在过去一年中,AI智能体从模拟被盗资金中获得的利用收入大约每1.3个月翻一番。Claude和GPT-5等前沿模型已能输出价值数百万美元的漏洞利用代码,并在实际测试中发现零日漏洞。
好文章,需要你的鼓励
前OpenAI首席技术官Mira Murati创办的AI初创公司Thinking Machines Lab宣布推出"交互模型"技术。不同于现有AI的轮流对话方式,该模型采用"全双工"技术,能在接收输入的同时生成响应,实现类似真实电话通话的自然交互。其模型TML-Interaction-Small响应速度达0.40秒,优于OpenAI和谷歌同类产品。目前仍处于研究预览阶段,计划数月内开放有限测试,年内正式发布。
香港大学与哈尔滨工业大学联合发布的这项研究(arXiv:2605.06196)发现,大语言模型在扮演不同社会层级角色时,内部神经网络存在一条清晰的"粒度轴",从普通个人视角延伸至全球机构视角。这条轴是AI角色空间的主导几何方向,可被测量、被跨模型复现,并通过激活引导技术加以操控,为AI社会模拟的可信度评估和角色视角的主动调控提供了新工具。
澳大利亚各州及联邦能源部长在近期会议上达成共识,要求数据中心通过投资新建可再生能源和储能设施,完全抵消其电力需求。除昆士兰州外,所有州均支持该提议。联邦能源部长克里斯·鲍文表示,数据中心是新增能源需求的最大驱动力之一,应成为电网的助力而非负担。澳大利亚能源市场委员会将于7月前提交具体实施建议。数据显示,到2030年数据中心用电量预计将增至现在的三倍。
华盛顿大学研究团队发现,在AI数学推理训练中,将随机拼凑的拉丁文占位词(Lorem Ipsum)添加到题目前,能帮助AI突破"全部答错、训练停滞"的困境,在多个模型上平均提升推理得分2.8至6.2分。研究揭示了有效扰动的两个关键特征:使用拉丁语词汇避免语义干扰,以及保持较低困惑度确保AI能正确理解题目内容。