Hugging Face 24 小时内复刻 OpenAI 的 Deep Research

Hugging Face 的研究人员在 OpenAI 的深度研究功能发布 24 小时后，推出了一个名为“Open Deep Research”的开源 AI 研究代理。该项目旨在匹配深度研究的性能，同时将技术免费提供给开发者。Hugging Face 表示，虽然强大的 LLM 现在可以在开源中自由获取，但 OpenAI 并未透露深度研究背后的代理框架。因此，他们决定在 24 小时内重现其结果并开源所需的框架。

周二，Hugging Face 的研究人员发布了一个名为 "Open Deep Research" 的开源 AI 研究代理，这是由其内部团队在 OpenAI 发布 Deep Research 功能后的 24 小时内完成的挑战。该代理能够自主浏览网络并创建研究报告。这个项目旨在匹配 Deep Research 的性能，同时让这项技术免费提供给开发者使用。

Hugging Face 在其公告页面中写道："虽然现在强大的大语言模型已经在开源领域freely可用，但 OpenAI 并未透露太多关于 Deep Research 底层代理框架的信息。所以我们决定展开一个 24 小时的任务，重现他们的结果并同时开源所需的框架！"

与 OpenAI 的 Deep Research 和 Google 使用 Gemini 实现的 "Deep Research" (最早在 12 月推出，早于 OpenAI) 类似，Hugging Face 的解决方案在现有 AI 模型基础上添加了一个"代理"框架，使其能够执行多步骤任务，比如收集信息并在过程中构建最终呈现给用户的报告。

这个开源克隆版本已经在基准测试中取得了相当的成绩。仅用一天时间，Hugging Face 的 Open Deep Research 在通用 AI 助手 (GAIA) 基准测试中达到了 55.15% 的准确率。该基准测试用于评估 AI 模型从多个来源收集和综合信息的能力。相比之下，OpenAI 的 Deep Research 在单次响应中获得了 67.36% 的准确率 (当使用共识机制组合 64 个响应时，OpenAI 的分数上升到 72.57%)。

正如 Hugging Face 在其文章中指出，GAIA 包含了复杂的多步骤问题，例如：

2008 年的画作《来自乌兹别克斯坦的刺绣》中显示的水果中，哪些被作为后来用作电影《最后的航程》道具的远洋客轮 1949 年 10 月早餐菜单的一部分？请按照画作中水果的顺时针排列顺序 (从 12 点位置开始) 用逗号分隔列出这些水果。使用每种水果的复数形式。

要正确回答这类问题，AI 代理必须寻找多个不同的信息来源并将它们组合成一个连贯的答案。GAIA 中的许多问题即使对人类来说也不容易，因此它们很好地测试了代理型 AI 的能力。

选择合适的核心 AI 模型

没有某种现有的 AI 模型作为核心，AI 代理就无法工作。目前，Open Deep Research 通过 API 建立在 OpenAI 的大语言模型 (如 GPT-4o) 或模拟推理模型 (如 o1 和 o3-mini) 之上。但它也可以适配开放权重的 AI 模型。这里的创新之处在于代理结构将所有组件连接在一起，使 AI 语言模型能够自主完成研究任务。

我们采访了领导 Open Deep Research 项目的 Hugging Face 研究员 Aymeric Roucher，询问了团队的 AI 模型选择。他告诉 Ars Technica："这并不是'开放权重'的，因为我们使用了封闭权重模型，只是因为它运行良好，但我们解释了所有开发过程并展示了代码。它可以切换到任何其他模型，所以支持完全开放的管道。"

Roucher 补充道："我尝试了很多大语言模型，包括 (Deepseek) R1 和 o3-mini。对于这个用例，o1 效果最好。但随着我们发起的 open-R1 计划，我们可能会用更好的开放模型取代 o1。"

虽然研究代理核心的大语言模型或模拟推理模型很重要，但 Open Deep Research 表明构建正确的代理层是关键，因为基准测试显示多步骤代理方法大大提高了大语言模型的能力：单独使用 OpenAI 的 GPT-4o (没有代理框架) 在 GAIA 基准测试中平均得分为 29%，而 OpenAI Deep Research 达到 67%。

根据 Roucher 的说法，Hugging Face 复制版本的一个核心组件使项目运行得如此之好。他们使用了 Hugging Face 的开源 "smolagents" 库来快速起步，该库使用他们称之为"代码代理"而不是基于 JSON 的代理。这些代码代理用编程代码编写它们的动作，据报道在完成任务时效率提高了 30%。这种方法使系统能够更简洁地处理复杂的动作序列。

开源 AI 的发展速度

与其他开源 AI 应用程序一样，Open Deep Research 的开发者在设计迭代方面毫不懈怠，这部分要归功于外部贡献者。而且像其他开源项目一样，团队借鉴了他人的工作，这缩短了开发时间。例如，Hugging Face 使用了借鉴自 2024 年底 Microsoft Research 的 Magnetic-One 代理项目的网页浏览和文本检查工具。

虽然这个开源研究代理的性能还未能匹配 OpenAI，但其发布让开发者可以免费访问、研究和修改这项技术。该项目展示了研究社区能够快速复制并公开分享之前只能通过商业提供商获得的 AI 功能。

"我认为 (基准测试) 对于困难问题来说相当具有指示性，"Roucher 说。"但在速度和用户体验方面，我们的解决方案还远未达到他们那样的优化程度。"

Roucher 表示，未来对其研究代理的改进可能包括支持更多文件格式和基于视觉的网页浏览功能。Hugging Face 已经在着手克隆 OpenAI 的 Operator，后者可以在网页浏览器环境中执行其他类型的任务 (如查看计算机屏幕和控制鼠标键盘输入)。

Hugging Face 已经在 GitHub 上公开发布了其代码，并开放了工程师职位以帮助扩展项目功能。

"反响非常好，"Roucher 告诉 Ars。"我们有很多新的贡献者加入并提出建议。有点像在冲浪时抓住浪头的感觉，社区真的提供了强大的动力！"

来源：Arstechnica

0赞

好文章，需要你的鼓励

Hugging Face 24 小时内复刻 OpenAI 的 Deep Research

来源：Arstechnica

2025

02/18

15:18

分享

点赞

企业AI战略为何需要开源与闭源模型并举：TCO现实考量

OpenAI收购电商AI推荐创业公司Crossing Minds全体员工

“无智联，不AI”品智联接数据通信商业市场创新峰会成功举办

IT部门面临的十大挑战与应对策略

CIO放弃散弹枪式做法，采用更具战略性的AI试点

CISO如何成为3090亿美元AI基础设施支出的守门人

PNG图像标准第三版发布，新增EXIF支持

Threads推出独立隐藏词汇管理功能并支持时限设置

论文有多水？这个AI系统一眼识破：KnoVo自动评估学术论文创新值

企业智能体扩展面临的隐形挑战与解决方案

Salesforce首席执行官：AI已承担公司近半数工作

谷歌推出AI虚拟试衣应用Doppl，让你可视化穿搭效果

最热门的 AI 模型：它们的功能和使用方法

这款古怪的 AI 智能手机可以创建你的数字分身

Faireez 获 750 万美元融资，为租赁市场提供 AI 驱动的酒店式管家服务

Broadcom 大获全胜：70% 大型 VMware 客户购买其最全面解决方案

Peer 获得1050万美元元宇宙引擎投资，推出3D个人星球功能

获 3000 万美元融资，Crogl 发布面向安全分析师的全新 AI "钢铁侠战衣"

Turing 获得 1.11 亿美元融资，估值达到 22 亿美元，为 OpenAI 等大语言模型公司提供关键代码支持

Tavus 推出系列 AI 模型，实现实时人脸交互技术突破

Welevel 获得 570 万美元融资，革新程序化游戏开发

AI 驱动的卓越运营：企业如何通过人人可及的流程智能提升成功

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: