Anthropic周二宣布,正式推出基于浏览器的AI智能体研究预览版,该智能体由其Claude AI模型驱动。这款名为Chrome版Claude的智能体正在向1000名Max计划订阅用户推出,该计划月费在100至200美元之间。公司同时为其他感兴趣的用户开放了候补名单。
通过在Chrome中添加扩展程序,选定用户现在可以在侧边栏窗口中与Claude聊天,该窗口能够保持浏览器中所有活动的上下文信息。用户还可以授权Claude智能体在浏览器中执行操作,代表用户完成某些任务。
浏览器正迅速成为AI实验室的下一个战场,它们希望通过浏览器集成为AI系统与用户之间提供更无缝的连接。Perplexity最近推出了自己的浏览器Comet,该浏览器配备了能够为用户分担任务的AI智能体。据报道,OpenAI即将推出自己的AI驱动浏览器,传言具有与Comet类似的功能。与此同时,Google在最近几个月推出了Gemini与Chrome的集成。
考虑到Google即将面临的反垄断案件,开发AI驱动浏览器的竞赛尤为紧迫,该案件的最终裁决预计随时会出炉。负责此案的联邦法官暗示可能会强制Google出售其Chrome浏览器。Perplexity主动提交了345亿美元的Chrome收购报价,OpenAI首席执行官Sam Altman也表示他的公司愿意收购。
在周二的博客文章中,Anthropic警告称,具有浏览器访问权限的AI智能体的兴起带来了新的安全风险。上周,Brave安全团队表示发现Comet浏览器智能体可能容易受到间接提示注入攻击,网站上的隐藏代码可能在智能体处理页面时诱骗其执行恶意指令。
(Perplexity通信主管Jesse Dwyer在邮件中告诉TechCrunch,Brave提出的漏洞已经得到修复。)
Anthropic表示,希望利用这次研究预览作为发现和解决新安全风险的机会;不过,公司已经引入了多项针对提示注入攻击的防御措施。公司称其干预措施将提示注入攻击的成功率从23.6%降至11.2%。
例如,Anthropic表示用户可以在应用设置中限制Claude浏览器智能体访问某些网站,公司默认阻止Claude访问提供金融服务、成人内容和盗版内容的网站。公司还表示,Claude浏览器智能体在"执行发布、购买或共享个人数据等高风险操作"之前会请求用户许可。
这并非Anthropic首次涉足能够控制计算机屏幕的AI模型。2024年10月,公司推出了一个能够控制PC的AI智能体——然而当时的测试显示该模型相当缓慢且不可靠。
自那时以来,智能体AI模型的能力已经有了相当大的改进。TechCrunch发现,现代使用浏览器的AI智能体,如Comet和ChatGPT智能体,在为用户分担简单任务方面相当可靠。然而,许多这些智能体系统在处理更复杂问题时仍然存在困难。
Q&A
Q1:Chrome版Claude智能体有什么功能?
A:Chrome版Claude是Anthropic推出的基于浏览器的AI智能体,通过Chrome扩展程序,用户可以在侧边栏窗口中与Claude聊天,该窗口能够保持浏览器中所有活动的上下文信息。用户还可以授权Claude智能体在浏览器中执行操作,代表用户完成某些任务。
Q2:使用Chrome版Claude需要什么条件?
A:目前Chrome版Claude正在向1000名Max计划订阅用户推出,该计划月费在100至200美元之间。Anthropic同时为其他感兴趣的用户开放了候补名单,普通用户需要等待进一步开放。
Q3:Chrome版Claude的安全性如何保障?
A:Anthropic引入了多项安全防御措施,将提示注入攻击成功率从23.6%降至11.2%。用户可以在设置中限制Claude访问某些网站,系统默认阻止访问金融服务、成人内容和盗版内容网站,并在执行高风险操作前会请求用户许可。
好文章,需要你的鼓励
博通宣布对VMware Cloud Foundation平台进行重大升级,将私有AI服务集成到核心订阅中,并为vSAN存储虚拟化软件添加云原生对象存储支持。此举旨在满足企业对简化基础设施、高效AI采用和网络安全的需求。升级包括与英伟达合作的VMware Private AI Foundation服务、支持AMD GPU、Amazon S3兼容对象存储、与Canonical合作的Ubuntu容器镜像,以及新的四阶段自动化安全流程。博通还推出了面向高监管行业的VCF网络合规高级服务。
谷歌DeepMind研究团队开发出革命性AI训练方法,让AI学会深度思考。通过"连续推理空间"技术,AI能在回答前进行内部分析和规划,一次性提供高质量解决方案。新方法在数学推理、逻辑分析等任务中表现显著提升,错误率明显降低。该技术有望应用于教育、医疗、商业咨询等领域,为用户提供更智能可靠的AI助手服务。
Google正式发布Gemini 2.5 Flash Image模型,该模型此前在测试版中被称为nanobanana。新模型为企业创意项目提供更多选择,能够快速修改图像外观并提供比以往模型更强的控制能力。该模型在保持人物相似度和编辑一致性方面表现出色,支持多轮编辑、照片融合等功能,并已集成到Gemini应用中供付费和免费用户使用。
这项研究展示了一种革命性的AI技术,能够仅通过音频生成高度逼真的说话视频。滑铁卢大学研究团队开发的Audio2Photoreal系统巧妙结合了深度学习、扩散模型等先进技术,实现了声音到面部动作的精准转换。该技术在影视制作、在线教育、新闻媒体等领域具有广阔应用前景,将大幅降低视频制作成本和门槛。虽然仍面临计算资源需求高、隐私安全等挑战,但其突破性创新为未来视频内容创作开辟了全新路径。