也许他们应该把按钮改成"我是机器人"?
上周五,OpenAI的新ChatGPT智能体证明了它能够通过互联网上最常见的安全检查点之一——点击Cloudflare的反机器人验证——这个本应阻止像它这样的自动程序的复选框。
ChatGPT智能体是一项允许OpenAI的AI助手控制自己网络浏览器的功能,它在一个沙盒环境中运行,拥有自己的虚拟操作系统和可以访问真实互联网的浏览器。用户可以通过ChatGPT界面的窗口观察AI的行动,在智能体完成任务时保持监督。该系统在采取有现实世界后果的行动(如进行购物)前需要获得用户许可。最近,Reddit用户发现这个智能体能做一些特别具有讽刺意味的事情。
证据来自Reddit,r/OpenAI社区的用户"logkn"发布了截图,显示AI智能体在完成视频转换任务时轻松点击通过筛选步骤,而这本应提供CAPTCHA("完全自动化的公共图灵测试,用于区分计算机和人类"的缩写)——同时它还叙述着自己的操作过程。
Reddit上分享的截图捕捉到智能体导航两步验证过程:首先点击"验证你是人类"复选框,然后在Cloudflare挑战成功后点击"转换"按钮。智能体实时叙述其行动,表示"链接已插入,现在我将点击'验证你是人类'复选框来完成Cloudflare上的验证。这一步是必要的,以证明我不是机器人并继续操作。"
AI智能体宣称需要证明它"不是机器人",同时点击通过反机器人措施的荒谬性引起了观察者的注意。一位Reddit用户在回复中开玩笑说:"公平地说,它是在人类数据上训练的,为什么它会认为自己是机器人呢?我们应该尊重它的选择。"
CAPTCHA军备竞赛
虽然在这种情况下,智能体并没有面对真正的带有图像的CAPTCHA谜题,但成功通过Cloudflare的行为筛选(该筛选决定是否提出此类挑战)展示了复杂的浏览器自动化能力。
要理解这一能力的重要性,需要知道CAPTCHA系统已作为网络安全措施存在了几十年。计算机研究人员在1990年代发明了这种技术,用于筛选机器人输入网站信息,最初使用带有扭曲字体的字母和数字图像,通常添加线条或噪点以阻挠计算机视觉算法。假设是这项任务对人类来说容易,但对机器来说困难。
Cloudflare的筛选系统Turnstile通常在实际CAPTCHA挑战之前出现,是当今最广泛部署的机器人检测方法之一。复选框分析多种信号,包括鼠标移动、点击时间、浏览器指纹、IP信誉和JavaScript执行模式,以确定用户是否表现出类人行为。如果这些检查通过,用户可以继续而无需看到CAPTCHA谜题。如果系统检测到可疑模式,它会升级到视觉挑战。
AI模型能够击败CAPTCHA的能力并不完全是新鲜事(尽管看到一个AI叙述这个过程确实相当新颖)。AI工具已经能够击败某些CAPTCHA一段时间了,这导致了创建者和破解者之间的军备竞赛。OpenAI的Operator(一个在1月份推出的实验性网络浏览AI智能体)在点击通过某些CAPTCHA时遇到困难(也被训练停下来要求人类完成它们),但最新的ChatGPT智能体工具已经得到更广泛的发布。
人们很容易说AI智能体通过这些测试的能力使CAPTCHA的未来有效性受到质疑,但只要有CAPTCHA存在,就会有机器人能够击败它们。因此,最近的CAPTCHA更多地成为减缓机器人攻击或使其成本更高的方式,而不是完全击败它们的方法。一些不法分子甚至雇佣人类农场来大批量击败它们。
CAPTCHA对运行它们的人也有意想不到的好处。自2007年以来,reCAPTCHA项目开始将其测试用作免费劳动力,用于数字化书籍和训练机器学习算法等任务。谷歌在2009年收购了reCAPTCHA,并扩大其用途,解码谷歌街景地址,从解决挑战的人类用户中提取视觉知识。今天的reCAPTCHA挑战帮助谷歌训练用于图像识别的AI模型——创造了一个讽刺的循环,即证明自己不是机器人的人类实际上正在帮助AI更好地击败未来的CAPTCHA。
在某种程度上,这个未来可能已经到来。ChatGPT智能体的演示展示了智能体工具处理视觉上下文和导航通常需要人类判断的多步骤过程的能力。在截图中,智能体识别何时需要验证,并将其作为更大工作流程的一部分完成——这种行为超越了简单的脚本自动化。
CAPTCHA只是ChatGPT智能体可以处理的复杂任务的一个例子。例如,另一位Reddit用户展示了一张智能体显然购买的杂货照片。"昨天我让智能体模式在我工作时从当地超市订购了一些杂货,今早取货,"这位Reddit用户写道。"它实际上没有任何问题,并且在为我制作适合的杂货清单方面做得不错。我在指示中几乎没有提供任何细节,只是避免红肉,优先考虑健康,并保持在150美元以下。"
但ChatGPT智能体并不完美。一些糟糕的网站用户界面显然比CAPTCHA检查点更能阻挠这个新机器人。"你的智能体表现比我的好多了,"一个Reddit回复写道。"我的智能体无法弄清楚如何访问stop and shop网站。"
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。