也许他们应该把按钮改成"我是机器人"?
上周五,OpenAI的新ChatGPT智能体证明了它能够通过互联网上最常见的安全检查点之一——点击Cloudflare的反机器人验证——这个本应阻止像它这样的自动程序的复选框。
ChatGPT智能体是一项允许OpenAI的AI助手控制自己网络浏览器的功能,它在一个沙盒环境中运行,拥有自己的虚拟操作系统和可以访问真实互联网的浏览器。用户可以通过ChatGPT界面的窗口观察AI的行动,在智能体完成任务时保持监督。该系统在采取有现实世界后果的行动(如进行购物)前需要获得用户许可。最近,Reddit用户发现这个智能体能做一些特别具有讽刺意味的事情。
证据来自Reddit,r/OpenAI社区的用户"logkn"发布了截图,显示AI智能体在完成视频转换任务时轻松点击通过筛选步骤,而这本应提供CAPTCHA("完全自动化的公共图灵测试,用于区分计算机和人类"的缩写)——同时它还叙述着自己的操作过程。
Reddit上分享的截图捕捉到智能体导航两步验证过程:首先点击"验证你是人类"复选框,然后在Cloudflare挑战成功后点击"转换"按钮。智能体实时叙述其行动,表示"链接已插入,现在我将点击'验证你是人类'复选框来完成Cloudflare上的验证。这一步是必要的,以证明我不是机器人并继续操作。"
AI智能体宣称需要证明它"不是机器人",同时点击通过反机器人措施的荒谬性引起了观察者的注意。一位Reddit用户在回复中开玩笑说:"公平地说,它是在人类数据上训练的,为什么它会认为自己是机器人呢?我们应该尊重它的选择。"
CAPTCHA军备竞赛
虽然在这种情况下,智能体并没有面对真正的带有图像的CAPTCHA谜题,但成功通过Cloudflare的行为筛选(该筛选决定是否提出此类挑战)展示了复杂的浏览器自动化能力。
要理解这一能力的重要性,需要知道CAPTCHA系统已作为网络安全措施存在了几十年。计算机研究人员在1990年代发明了这种技术,用于筛选机器人输入网站信息,最初使用带有扭曲字体的字母和数字图像,通常添加线条或噪点以阻挠计算机视觉算法。假设是这项任务对人类来说容易,但对机器来说困难。
Cloudflare的筛选系统Turnstile通常在实际CAPTCHA挑战之前出现,是当今最广泛部署的机器人检测方法之一。复选框分析多种信号,包括鼠标移动、点击时间、浏览器指纹、IP信誉和JavaScript执行模式,以确定用户是否表现出类人行为。如果这些检查通过,用户可以继续而无需看到CAPTCHA谜题。如果系统检测到可疑模式,它会升级到视觉挑战。
AI模型能够击败CAPTCHA的能力并不完全是新鲜事(尽管看到一个AI叙述这个过程确实相当新颖)。AI工具已经能够击败某些CAPTCHA一段时间了,这导致了创建者和破解者之间的军备竞赛。OpenAI的Operator(一个在1月份推出的实验性网络浏览AI智能体)在点击通过某些CAPTCHA时遇到困难(也被训练停下来要求人类完成它们),但最新的ChatGPT智能体工具已经得到更广泛的发布。
人们很容易说AI智能体通过这些测试的能力使CAPTCHA的未来有效性受到质疑,但只要有CAPTCHA存在,就会有机器人能够击败它们。因此,最近的CAPTCHA更多地成为减缓机器人攻击或使其成本更高的方式,而不是完全击败它们的方法。一些不法分子甚至雇佣人类农场来大批量击败它们。
CAPTCHA对运行它们的人也有意想不到的好处。自2007年以来,reCAPTCHA项目开始将其测试用作免费劳动力,用于数字化书籍和训练机器学习算法等任务。谷歌在2009年收购了reCAPTCHA,并扩大其用途,解码谷歌街景地址,从解决挑战的人类用户中提取视觉知识。今天的reCAPTCHA挑战帮助谷歌训练用于图像识别的AI模型——创造了一个讽刺的循环,即证明自己不是机器人的人类实际上正在帮助AI更好地击败未来的CAPTCHA。
在某种程度上,这个未来可能已经到来。ChatGPT智能体的演示展示了智能体工具处理视觉上下文和导航通常需要人类判断的多步骤过程的能力。在截图中,智能体识别何时需要验证,并将其作为更大工作流程的一部分完成——这种行为超越了简单的脚本自动化。
CAPTCHA只是ChatGPT智能体可以处理的复杂任务的一个例子。例如,另一位Reddit用户展示了一张智能体显然购买的杂货照片。"昨天我让智能体模式在我工作时从当地超市订购了一些杂货,今早取货,"这位Reddit用户写道。"它实际上没有任何问题,并且在为我制作适合的杂货清单方面做得不错。我在指示中几乎没有提供任何细节,只是避免红肉,优先考虑健康,并保持在150美元以下。"
但ChatGPT智能体并不完美。一些糟糕的网站用户界面显然比CAPTCHA检查点更能阻挠这个新机器人。"你的智能体表现比我的好多了,"一个Reddit回复写道。"我的智能体无法弄清楚如何访问stop and shop网站。"
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。