周四,Anthropic 宣布对其 AI 助手 Claude 进行了重大升级,将其研究模式延长至最多 45 分钟后再生成详尽报告。公司还扩展了其集成选项,允许 Claude 连接至热门第三方服务。
类似于 Google 的 Deep Research ( 于 12 月 11 日首发 ) 和 ChatGPT 的深度研究功能 ( 于 2 月 2 日推出 ),Anthropic 于 4 月 15 日宣布了其自有的 “Research” 功能。这些功能均能自主浏览网络及其他在线来源,以文档格式汇编研究报告,此外,该技术的开源克隆版本也已问世。
现在,Anthropic 进一步提升了其 Research 功能。升级后的模式使 Claude 能够在 “数百个内部和外部来源” 中进行更 “深度” 的调查,Anthropic 表示。当用户切换到 Research 按钮时,Claude 会将复杂请求拆分为较小的部分,分别进行考察,并编制出附有原始来源引用的报告。
根据我们的体验,各大 AI 供应商的这些深度研究功能大体运行良好,能挖掘出相关研究内容,否则如果你不知道该搜索什么,很难找到这些信息。但用户应当注意报告中可能存在编造的情况,其中可能会包含听起来合理但实际上并不存在的 AI 虚构来源。
简单测试
Anthropic 表示,尽管大部分报告能在 5 到 15 分钟内完成,但新研究系统对于特别复杂的调查,现在可能需要长达 45 分钟 — 这是通常需要数小时手动研究的任务。
我们可以证明,AI 编制的研究文件无疑能在收集重要和显著的来源时节省一些时间。但你必须了解所查看内容,以确保不依赖于无关或错误的信息。正如 AI 输出通常一样,切勿盲目相信。从这一角度来看,AI 搜索功能迄今为止可能对能够辨别真伪的领域专家最为有用。
例如,我们向 Anthropic 的 Research 提出了一个简单问题: “谁发明了电子游戏?” 经过 13 分钟 2 秒的研究后,它构建了一份相当全面且细致的报告,并附有来源。在我看来 (过去 20 年,我撰写了大量关于该主题的文章),这份报告提供了基本准确的历史概述,超出了当今大多数印刷版电子游戏历史书籍的质量。
尽管如此,报告中包含了一段来自 William Higinbotham 的直接引用,其中似乎混合了两个未在来源列表中引用的来源。(人们必须始终小心 AI 编造的引用,因为即使不在此 Research 模式下,Claude 3.7 Sonnet 也倾向于为了符合叙事而发明出合理的引用。)我们最近报道了一项研究,显示 AI 搜索服务经常编造来源,而在此案例中,看起来 Claude Research 挖掘出的来源,虽然真实存在,但并不总是与报告中所述相符。
当然,细节总有解读和变化的空间,但总体而言,Claude Research 在制作这一主题的报告上表现相对不错。但是,如果你将其作为严肃研究的基础,还是需要更深入地挖掘每个来源并确认所有信息。你可以阅读完整的 Claude 生成结果,保存为 markdown 格式的文本文件。遗憾的是,markdown 版本中不包含 Claude 网页界面中显示的来源 URL。
集成功能
Anthropic 同样在周四宣布,已扩展 Claude 的数据访问能力。除了网页搜索和 Google Workspace 集成,现在通过公司全新的 “Integrations” 功能,Claude 可以搜索任何连接的应用程序。这一功能让人联想到 OpenAI 于 2023 年 3 月推出的 ChatGPT Plugins 功能,其目标也是实现类似连接,尽管这两项功能在底层运行方式有所不同。
这些集成功能允许 Claude 与跨网页和桌面应用的远程 Model Context Protocol (MCP) 服务器协同工作。MCP 标准由 Anthropic 于去年 11 月推出,我们在 4 月也曾报道过,它将 AI 应用程序连接到外部工具和数据源。
在推出时,Claude 支持与 10 项服务集成,包括 Atlassian 的 Jira 和 Confluence、Zapier、Cloudflare、Intercom、Asana、Square、Sentry、PayPal、Linear 和 Plaid。公司计划未来增加更多合作伙伴,如 Stripe 和 GitLab。
每个集成都旨在以特定方式扩展 Claude 的功能。例如,据报道 Zapier 集成通过预构建的自动化流程连接数千个应用,能使 Claude 自动从 HubSpot 提取销售数据或根据日历条目准备会议摘要。借助 Atlassian 的工具,Anthropic 表示 Claude 可以协作进行产品开发、管理任务,并同时创建多个 Confluence 页面和 Jira 工作项。
Anthropic 已经向 Max、Team 以及 Enterprise 计划的用户开放其高级 Research 和 Integrations 功能的 beta 测试,Pro 计划的访问权限将很快推出。公司还已将其网页搜索功能 ( 于 3 月推出 ) 扩展至全球所有付费计划的 Claude 用户。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。