周四,Anthropic 宣布对其 AI 助手 Claude 进行了重大升级,将其研究模式延长至最多 45 分钟后再生成详尽报告。公司还扩展了其集成选项,允许 Claude 连接至热门第三方服务。
类似于 Google 的 Deep Research ( 于 12 月 11 日首发 ) 和 ChatGPT 的深度研究功能 ( 于 2 月 2 日推出 ),Anthropic 于 4 月 15 日宣布了其自有的 “Research” 功能。这些功能均能自主浏览网络及其他在线来源,以文档格式汇编研究报告,此外,该技术的开源克隆版本也已问世。
现在,Anthropic 进一步提升了其 Research 功能。升级后的模式使 Claude 能够在 “数百个内部和外部来源” 中进行更 “深度” 的调查,Anthropic 表示。当用户切换到 Research 按钮时,Claude 会将复杂请求拆分为较小的部分,分别进行考察,并编制出附有原始来源引用的报告。
根据我们的体验,各大 AI 供应商的这些深度研究功能大体运行良好,能挖掘出相关研究内容,否则如果你不知道该搜索什么,很难找到这些信息。但用户应当注意报告中可能存在编造的情况,其中可能会包含听起来合理但实际上并不存在的 AI 虚构来源。
简单测试
Anthropic 表示,尽管大部分报告能在 5 到 15 分钟内完成,但新研究系统对于特别复杂的调查,现在可能需要长达 45 分钟 — 这是通常需要数小时手动研究的任务。
我们可以证明,AI 编制的研究文件无疑能在收集重要和显著的来源时节省一些时间。但你必须了解所查看内容,以确保不依赖于无关或错误的信息。正如 AI 输出通常一样,切勿盲目相信。从这一角度来看,AI 搜索功能迄今为止可能对能够辨别真伪的领域专家最为有用。
例如,我们向 Anthropic 的 Research 提出了一个简单问题: “谁发明了电子游戏?” 经过 13 分钟 2 秒的研究后,它构建了一份相当全面且细致的报告,并附有来源。在我看来 (过去 20 年,我撰写了大量关于该主题的文章),这份报告提供了基本准确的历史概述,超出了当今大多数印刷版电子游戏历史书籍的质量。
尽管如此,报告中包含了一段来自 William Higinbotham 的直接引用,其中似乎混合了两个未在来源列表中引用的来源。(人们必须始终小心 AI 编造的引用,因为即使不在此 Research 模式下,Claude 3.7 Sonnet 也倾向于为了符合叙事而发明出合理的引用。)我们最近报道了一项研究,显示 AI 搜索服务经常编造来源,而在此案例中,看起来 Claude Research 挖掘出的来源,虽然真实存在,但并不总是与报告中所述相符。
当然,细节总有解读和变化的空间,但总体而言,Claude Research 在制作这一主题的报告上表现相对不错。但是,如果你将其作为严肃研究的基础,还是需要更深入地挖掘每个来源并确认所有信息。你可以阅读完整的 Claude 生成结果,保存为 markdown 格式的文本文件。遗憾的是,markdown 版本中不包含 Claude 网页界面中显示的来源 URL。
集成功能
Anthropic 同样在周四宣布,已扩展 Claude 的数据访问能力。除了网页搜索和 Google Workspace 集成,现在通过公司全新的 “Integrations” 功能,Claude 可以搜索任何连接的应用程序。这一功能让人联想到 OpenAI 于 2023 年 3 月推出的 ChatGPT Plugins 功能,其目标也是实现类似连接,尽管这两项功能在底层运行方式有所不同。
这些集成功能允许 Claude 与跨网页和桌面应用的远程 Model Context Protocol (MCP) 服务器协同工作。MCP 标准由 Anthropic 于去年 11 月推出,我们在 4 月也曾报道过,它将 AI 应用程序连接到外部工具和数据源。
在推出时,Claude 支持与 10 项服务集成,包括 Atlassian 的 Jira 和 Confluence、Zapier、Cloudflare、Intercom、Asana、Square、Sentry、PayPal、Linear 和 Plaid。公司计划未来增加更多合作伙伴,如 Stripe 和 GitLab。
每个集成都旨在以特定方式扩展 Claude 的功能。例如,据报道 Zapier 集成通过预构建的自动化流程连接数千个应用,能使 Claude 自动从 HubSpot 提取销售数据或根据日历条目准备会议摘要。借助 Atlassian 的工具,Anthropic 表示 Claude 可以协作进行产品开发、管理任务,并同时创建多个 Confluence 页面和 Jira 工作项。
Anthropic 已经向 Max、Team 以及 Enterprise 计划的用户开放其高级 Research 和 Integrations 功能的 beta 测试,Pro 计划的访问权限将很快推出。公司还已将其网页搜索功能 ( 于 3 月推出 ) 扩展至全球所有付费计划的 Claude 用户。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。