周二,Hugging Face 的研究人员发布了一个名为 "Open Deep Research" 的开源 AI 研究代理,这是由其内部团队在 OpenAI 发布 Deep Research 功能后的 24 小时内完成的挑战。该代理能够自主浏览网络并创建研究报告。这个项目旨在匹配 Deep Research 的性能,同时让这项技术免费提供给开发者使用。
Hugging Face 在其公告页面中写道:"虽然现在强大的大语言模型已经在开源领域freely可用,但 OpenAI 并未透露太多关于 Deep Research 底层代理框架的信息。所以我们决定展开一个 24 小时的任务,重现他们的结果并同时开源所需的框架!"
与 OpenAI 的 Deep Research 和 Google 使用 Gemini 实现的 "Deep Research" (最早在 12 月推出,早于 OpenAI) 类似,Hugging Face 的解决方案在现有 AI 模型基础上添加了一个"代理"框架,使其能够执行多步骤任务,比如收集信息并在过程中构建最终呈现给用户的报告。
这个开源克隆版本已经在基准测试中取得了相当的成绩。仅用一天时间,Hugging Face 的 Open Deep Research 在通用 AI 助手 (GAIA) 基准测试中达到了 55.15% 的准确率。该基准测试用于评估 AI 模型从多个来源收集和综合信息的能力。相比之下,OpenAI 的 Deep Research 在单次响应中获得了 67.36% 的准确率 (当使用共识机制组合 64 个响应时,OpenAI 的分数上升到 72.57%)。
正如 Hugging Face 在其文章中指出,GAIA 包含了复杂的多步骤问题,例如:
2008 年的画作《来自乌兹别克斯坦的刺绣》中显示的水果中,哪些被作为后来用作电影《最后的航程》道具的远洋客轮 1949 年 10 月早餐菜单的一部分?请按照画作中水果的顺时针排列顺序 (从 12 点位置开始) 用逗号分隔列出这些水果。使用每种水果的复数形式。
要正确回答这类问题,AI 代理必须寻找多个不同的信息来源并将它们组合成一个连贯的答案。GAIA 中的许多问题即使对人类来说也不容易,因此它们很好地测试了代理型 AI 的能力。
选择合适的核心 AI 模型
没有某种现有的 AI 模型作为核心,AI 代理就无法工作。目前,Open Deep Research 通过 API 建立在 OpenAI 的大语言模型 (如 GPT-4o) 或模拟推理模型 (如 o1 和 o3-mini) 之上。但它也可以适配开放权重的 AI 模型。这里的创新之处在于代理结构将所有组件连接在一起,使 AI 语言模型能够自主完成研究任务。
我们采访了领导 Open Deep Research 项目的 Hugging Face 研究员 Aymeric Roucher,询问了团队的 AI 模型选择。他告诉 Ars Technica:"这并不是'开放权重'的,因为我们使用了封闭权重模型,只是因为它运行良好,但我们解释了所有开发过程并展示了代码。它可以切换到任何其他模型,所以支持完全开放的管道。"
Roucher 补充道:"我尝试了很多大语言模型,包括 (Deepseek) R1 和 o3-mini。对于这个用例,o1 效果最好。但随着我们发起的 open-R1 计划,我们可能会用更好的开放模型取代 o1。"
虽然研究代理核心的大语言模型或模拟推理模型很重要,但 Open Deep Research 表明构建正确的代理层是关键,因为基准测试显示多步骤代理方法大大提高了大语言模型的能力:单独使用 OpenAI 的 GPT-4o (没有代理框架) 在 GAIA 基准测试中平均得分为 29%,而 OpenAI Deep Research 达到 67%。
根据 Roucher 的说法,Hugging Face 复制版本的一个核心组件使项目运行得如此之好。他们使用了 Hugging Face 的开源 "smolagents" 库来快速起步,该库使用他们称之为"代码代理"而不是基于 JSON 的代理。这些代码代理用编程代码编写它们的动作,据报道在完成任务时效率提高了 30%。这种方法使系统能够更简洁地处理复杂的动作序列。
开源 AI 的发展速度
与其他开源 AI 应用程序一样,Open Deep Research 的开发者在设计迭代方面毫不懈怠,这部分要归功于外部贡献者。而且像其他开源项目一样,团队借鉴了他人的工作,这缩短了开发时间。例如,Hugging Face 使用了借鉴自 2024 年底 Microsoft Research 的 Magnetic-One 代理项目的网页浏览和文本检查工具。
虽然这个开源研究代理的性能还未能匹配 OpenAI,但其发布让开发者可以免费访问、研究和修改这项技术。该项目展示了研究社区能够快速复制并公开分享之前只能通过商业提供商获得的 AI 功能。
"我认为 (基准测试) 对于困难问题来说相当具有指示性,"Roucher 说。"但在速度和用户体验方面,我们的解决方案还远未达到他们那样的优化程度。"
Roucher 表示,未来对其研究代理的改进可能包括支持更多文件格式和基于视觉的网页浏览功能。Hugging Face 已经在着手克隆 OpenAI 的 Operator,后者可以在网页浏览器环境中执行其他类型的任务 (如查看计算机屏幕和控制鼠标键盘输入)。
Hugging Face 已经在 GitHub 上公开发布了其代码,并开放了工程师职位以帮助扩展项目功能。
"反响非常好,"Roucher 告诉 Ars。"我们有很多新的贡献者加入并提出建议。有点像在冲浪时抓住浪头的感觉,社区真的提供了强大的动力!"
好文章,需要你的鼓励
本文探讨了如何利用混合智能来超越传统的多元化、公平性和包容性(DEI)议程。作者指出,当前的DEI计划可能加剧分歧,而混合智能则提供了一个统一的框架,强调人类共同的基本维度。文章提出了一个2x4模型,包括4个个人维度和4个集体维度,以此来理解人类经验的普遍性。通过将人工智能与这种自然智能模型相结合,组织可以创造更包容、更有效的工作环境。}
这篇文章介绍了AI芯片初创公司EnCharge的创新技术,该公司声称其模拟人工智能加速器在功耗上仅需传统桌面GPU的一小部分,却能提供相当的计算性能。EnCharge的推理芯片在8位精度下能以1瓦特的功耗提供150 TOPS的AI计算能力。该技术经过多年的研发,旨在通过在内存中进行计算来提高效率,并支持多种AI工作负载。
微软发布了 Majorana 1 量子芯片,这是一个重大突破。该芯片采用拓扑量子比特技术,具有更低的错误率,有望解决量子计算的可扩展性问题。这项技术是微软近 20 年研究的成果,标志着量子硬件取得重要进展,为构建大规模量子计算机铺平了道路。
xAI公司推出的Grok 3模型在各项关键基准测试中表现出色,匹敌或超越了目前最先进的AI模型。尽管训练尚未完成,Grok 3已展现出强大实力。本文探讨了Grok 3可能对AI行业产生的影响,包括加速模型发布周期、验证大规模计算投资的价值,以及推动开源文化的发展等方面。