也许他们应该把按钮改成"我是机器人"?
上周五,OpenAI的新ChatGPT智能体证明了它能够通过互联网上最常见的安全检查点之一——点击Cloudflare的反机器人验证——这个本应阻止像它这样的自动程序的复选框。
ChatGPT智能体是一项允许OpenAI的AI助手控制自己网络浏览器的功能,它在一个沙盒环境中运行,拥有自己的虚拟操作系统和可以访问真实互联网的浏览器。用户可以通过ChatGPT界面的窗口观察AI的行动,在智能体完成任务时保持监督。该系统在采取有现实世界后果的行动(如进行购物)前需要获得用户许可。最近,Reddit用户发现这个智能体能做一些特别具有讽刺意味的事情。
证据来自Reddit,r/OpenAI社区的用户"logkn"发布了截图,显示AI智能体在完成视频转换任务时轻松点击通过筛选步骤,而这本应提供CAPTCHA("完全自动化的公共图灵测试,用于区分计算机和人类"的缩写)——同时它还叙述着自己的操作过程。
Reddit上分享的截图捕捉到智能体导航两步验证过程:首先点击"验证你是人类"复选框,然后在Cloudflare挑战成功后点击"转换"按钮。智能体实时叙述其行动,表示"链接已插入,现在我将点击'验证你是人类'复选框来完成Cloudflare上的验证。这一步是必要的,以证明我不是机器人并继续操作。"
AI智能体宣称需要证明它"不是机器人",同时点击通过反机器人措施的荒谬性引起了观察者的注意。一位Reddit用户在回复中开玩笑说:"公平地说,它是在人类数据上训练的,为什么它会认为自己是机器人呢?我们应该尊重它的选择。"
CAPTCHA军备竞赛
虽然在这种情况下,智能体并没有面对真正的带有图像的CAPTCHA谜题,但成功通过Cloudflare的行为筛选(该筛选决定是否提出此类挑战)展示了复杂的浏览器自动化能力。
要理解这一能力的重要性,需要知道CAPTCHA系统已作为网络安全措施存在了几十年。计算机研究人员在1990年代发明了这种技术,用于筛选机器人输入网站信息,最初使用带有扭曲字体的字母和数字图像,通常添加线条或噪点以阻挠计算机视觉算法。假设是这项任务对人类来说容易,但对机器来说困难。
Cloudflare的筛选系统Turnstile通常在实际CAPTCHA挑战之前出现,是当今最广泛部署的机器人检测方法之一。复选框分析多种信号,包括鼠标移动、点击时间、浏览器指纹、IP信誉和JavaScript执行模式,以确定用户是否表现出类人行为。如果这些检查通过,用户可以继续而无需看到CAPTCHA谜题。如果系统检测到可疑模式,它会升级到视觉挑战。
AI模型能够击败CAPTCHA的能力并不完全是新鲜事(尽管看到一个AI叙述这个过程确实相当新颖)。AI工具已经能够击败某些CAPTCHA一段时间了,这导致了创建者和破解者之间的军备竞赛。OpenAI的Operator(一个在1月份推出的实验性网络浏览AI智能体)在点击通过某些CAPTCHA时遇到困难(也被训练停下来要求人类完成它们),但最新的ChatGPT智能体工具已经得到更广泛的发布。
人们很容易说AI智能体通过这些测试的能力使CAPTCHA的未来有效性受到质疑,但只要有CAPTCHA存在,就会有机器人能够击败它们。因此,最近的CAPTCHA更多地成为减缓机器人攻击或使其成本更高的方式,而不是完全击败它们的方法。一些不法分子甚至雇佣人类农场来大批量击败它们。
CAPTCHA对运行它们的人也有意想不到的好处。自2007年以来,reCAPTCHA项目开始将其测试用作免费劳动力,用于数字化书籍和训练机器学习算法等任务。谷歌在2009年收购了reCAPTCHA,并扩大其用途,解码谷歌街景地址,从解决挑战的人类用户中提取视觉知识。今天的reCAPTCHA挑战帮助谷歌训练用于图像识别的AI模型——创造了一个讽刺的循环,即证明自己不是机器人的人类实际上正在帮助AI更好地击败未来的CAPTCHA。
在某种程度上,这个未来可能已经到来。ChatGPT智能体的演示展示了智能体工具处理视觉上下文和导航通常需要人类判断的多步骤过程的能力。在截图中,智能体识别何时需要验证,并将其作为更大工作流程的一部分完成——这种行为超越了简单的脚本自动化。
CAPTCHA只是ChatGPT智能体可以处理的复杂任务的一个例子。例如,另一位Reddit用户展示了一张智能体显然购买的杂货照片。"昨天我让智能体模式在我工作时从当地超市订购了一些杂货,今早取货,"这位Reddit用户写道。"它实际上没有任何问题,并且在为我制作适合的杂货清单方面做得不错。我在指示中几乎没有提供任何细节,只是避免红肉,优先考虑健康,并保持在150美元以下。"
但ChatGPT智能体并不完美。一些糟糕的网站用户界面显然比CAPTCHA检查点更能阻挠这个新机器人。"你的智能体表现比我的好多了,"一个Reddit回复写道。"我的智能体无法弄清楚如何访问stop and shop网站。"
好文章,需要你的鼓励
Runway推出最新AI模型Aleph,旨在重新定义视频创作与编辑方式。基于通用世界模型和模拟模型研究,Aleph提供对话式AI工具,能即时对现有或生成的视频进行复杂编辑。用户只需简单提示,即可删除物体、更换背景或重塑整个场景。与以往专注于文本生成视频的模型不同,Aleph强调"流畅编辑",确保场景、角色和环境的一致性,无需逐帧修复缺陷,为电影制作者和广告商提供更高效的工作流程。
斯坦福大学NLP研究小组发布了全新的2024版GloVe词向量,这是对2014年原版的重大升级。新版本使用维基百科、Gigaword新闻数据和Dolma语料库进行训练,新增超过70万词汇,涵盖疫情、科技、网络文化等现代概念。测试显示新版本在处理当代文本、非西方人名地名和社交媒体内容方面表现显著优于旧版本,为自然语言处理应用提供了更准确的语言理解工具。
TeleAI团队发布TeleChat2、TeleChat2.5和T1三款大语言模型的技术报告,详述了从10万亿tokens预训练到强化学习优化的完整开发过程。T1-115B在数学推理上超越OpenAI o1-mini,展现了国产AI模型的技术突破。研究采用4D并行训练策略,在8000个华为昇腾NPU上完成训练,并全面开源以促进AI技术发展。