也许他们应该把按钮改成"我是机器人"?
上周五,OpenAI的新ChatGPT智能体证明了它能够通过互联网上最常见的安全检查点之一——点击Cloudflare的反机器人验证——这个本应阻止像它这样的自动程序的复选框。
ChatGPT智能体是一项允许OpenAI的AI助手控制自己网络浏览器的功能,它在一个沙盒环境中运行,拥有自己的虚拟操作系统和可以访问真实互联网的浏览器。用户可以通过ChatGPT界面的窗口观察AI的行动,在智能体完成任务时保持监督。该系统在采取有现实世界后果的行动(如进行购物)前需要获得用户许可。最近,Reddit用户发现这个智能体能做一些特别具有讽刺意味的事情。
证据来自Reddit,r/OpenAI社区的用户"logkn"发布了截图,显示AI智能体在完成视频转换任务时轻松点击通过筛选步骤,而这本应提供CAPTCHA("完全自动化的公共图灵测试,用于区分计算机和人类"的缩写)——同时它还叙述着自己的操作过程。
Reddit上分享的截图捕捉到智能体导航两步验证过程:首先点击"验证你是人类"复选框,然后在Cloudflare挑战成功后点击"转换"按钮。智能体实时叙述其行动,表示"链接已插入,现在我将点击'验证你是人类'复选框来完成Cloudflare上的验证。这一步是必要的,以证明我不是机器人并继续操作。"
AI智能体宣称需要证明它"不是机器人",同时点击通过反机器人措施的荒谬性引起了观察者的注意。一位Reddit用户在回复中开玩笑说:"公平地说,它是在人类数据上训练的,为什么它会认为自己是机器人呢?我们应该尊重它的选择。"
CAPTCHA军备竞赛
虽然在这种情况下,智能体并没有面对真正的带有图像的CAPTCHA谜题,但成功通过Cloudflare的行为筛选(该筛选决定是否提出此类挑战)展示了复杂的浏览器自动化能力。
要理解这一能力的重要性,需要知道CAPTCHA系统已作为网络安全措施存在了几十年。计算机研究人员在1990年代发明了这种技术,用于筛选机器人输入网站信息,最初使用带有扭曲字体的字母和数字图像,通常添加线条或噪点以阻挠计算机视觉算法。假设是这项任务对人类来说容易,但对机器来说困难。
Cloudflare的筛选系统Turnstile通常在实际CAPTCHA挑战之前出现,是当今最广泛部署的机器人检测方法之一。复选框分析多种信号,包括鼠标移动、点击时间、浏览器指纹、IP信誉和JavaScript执行模式,以确定用户是否表现出类人行为。如果这些检查通过,用户可以继续而无需看到CAPTCHA谜题。如果系统检测到可疑模式,它会升级到视觉挑战。
AI模型能够击败CAPTCHA的能力并不完全是新鲜事(尽管看到一个AI叙述这个过程确实相当新颖)。AI工具已经能够击败某些CAPTCHA一段时间了,这导致了创建者和破解者之间的军备竞赛。OpenAI的Operator(一个在1月份推出的实验性网络浏览AI智能体)在点击通过某些CAPTCHA时遇到困难(也被训练停下来要求人类完成它们),但最新的ChatGPT智能体工具已经得到更广泛的发布。
人们很容易说AI智能体通过这些测试的能力使CAPTCHA的未来有效性受到质疑,但只要有CAPTCHA存在,就会有机器人能够击败它们。因此,最近的CAPTCHA更多地成为减缓机器人攻击或使其成本更高的方式,而不是完全击败它们的方法。一些不法分子甚至雇佣人类农场来大批量击败它们。
CAPTCHA对运行它们的人也有意想不到的好处。自2007年以来,reCAPTCHA项目开始将其测试用作免费劳动力,用于数字化书籍和训练机器学习算法等任务。谷歌在2009年收购了reCAPTCHA,并扩大其用途,解码谷歌街景地址,从解决挑战的人类用户中提取视觉知识。今天的reCAPTCHA挑战帮助谷歌训练用于图像识别的AI模型——创造了一个讽刺的循环,即证明自己不是机器人的人类实际上正在帮助AI更好地击败未来的CAPTCHA。
在某种程度上,这个未来可能已经到来。ChatGPT智能体的演示展示了智能体工具处理视觉上下文和导航通常需要人类判断的多步骤过程的能力。在截图中,智能体识别何时需要验证,并将其作为更大工作流程的一部分完成——这种行为超越了简单的脚本自动化。
CAPTCHA只是ChatGPT智能体可以处理的复杂任务的一个例子。例如,另一位Reddit用户展示了一张智能体显然购买的杂货照片。"昨天我让智能体模式在我工作时从当地超市订购了一些杂货,今早取货,"这位Reddit用户写道。"它实际上没有任何问题,并且在为我制作适合的杂货清单方面做得不错。我在指示中几乎没有提供任何细节,只是避免红肉,优先考虑健康,并保持在150美元以下。"
但ChatGPT智能体并不完美。一些糟糕的网站用户界面显然比CAPTCHA检查点更能阻挠这个新机器人。"你的智能体表现比我的好多了,"一个Reddit回复写道。"我的智能体无法弄清楚如何访问stop and shop网站。"
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。