周二,Hugging Face 的研究人员发布了一个名为 "Open Deep Research" 的开源 AI 研究代理,这是由其内部团队在 OpenAI 发布 Deep Research 功能后的 24 小时内完成的挑战。该代理能够自主浏览网络并创建研究报告。这个项目旨在匹配 Deep Research 的性能,同时让这项技术免费提供给开发者使用。
Hugging Face 在其公告页面中写道:"虽然现在强大的大语言模型已经在开源领域freely可用,但 OpenAI 并未透露太多关于 Deep Research 底层代理框架的信息。所以我们决定展开一个 24 小时的任务,重现他们的结果并同时开源所需的框架!"
与 OpenAI 的 Deep Research 和 Google 使用 Gemini 实现的 "Deep Research" (最早在 12 月推出,早于 OpenAI) 类似,Hugging Face 的解决方案在现有 AI 模型基础上添加了一个"代理"框架,使其能够执行多步骤任务,比如收集信息并在过程中构建最终呈现给用户的报告。
这个开源克隆版本已经在基准测试中取得了相当的成绩。仅用一天时间,Hugging Face 的 Open Deep Research 在通用 AI 助手 (GAIA) 基准测试中达到了 55.15% 的准确率。该基准测试用于评估 AI 模型从多个来源收集和综合信息的能力。相比之下,OpenAI 的 Deep Research 在单次响应中获得了 67.36% 的准确率 (当使用共识机制组合 64 个响应时,OpenAI 的分数上升到 72.57%)。
正如 Hugging Face 在其文章中指出,GAIA 包含了复杂的多步骤问题,例如:
2008 年的画作《来自乌兹别克斯坦的刺绣》中显示的水果中,哪些被作为后来用作电影《最后的航程》道具的远洋客轮 1949 年 10 月早餐菜单的一部分?请按照画作中水果的顺时针排列顺序 (从 12 点位置开始) 用逗号分隔列出这些水果。使用每种水果的复数形式。
要正确回答这类问题,AI 代理必须寻找多个不同的信息来源并将它们组合成一个连贯的答案。GAIA 中的许多问题即使对人类来说也不容易,因此它们很好地测试了代理型 AI 的能力。
选择合适的核心 AI 模型
没有某种现有的 AI 模型作为核心,AI 代理就无法工作。目前,Open Deep Research 通过 API 建立在 OpenAI 的大语言模型 (如 GPT-4o) 或模拟推理模型 (如 o1 和 o3-mini) 之上。但它也可以适配开放权重的 AI 模型。这里的创新之处在于代理结构将所有组件连接在一起,使 AI 语言模型能够自主完成研究任务。
我们采访了领导 Open Deep Research 项目的 Hugging Face 研究员 Aymeric Roucher,询问了团队的 AI 模型选择。他告诉 Ars Technica:"这并不是'开放权重'的,因为我们使用了封闭权重模型,只是因为它运行良好,但我们解释了所有开发过程并展示了代码。它可以切换到任何其他模型,所以支持完全开放的管道。"
Roucher 补充道:"我尝试了很多大语言模型,包括 (Deepseek) R1 和 o3-mini。对于这个用例,o1 效果最好。但随着我们发起的 open-R1 计划,我们可能会用更好的开放模型取代 o1。"
虽然研究代理核心的大语言模型或模拟推理模型很重要,但 Open Deep Research 表明构建正确的代理层是关键,因为基准测试显示多步骤代理方法大大提高了大语言模型的能力:单独使用 OpenAI 的 GPT-4o (没有代理框架) 在 GAIA 基准测试中平均得分为 29%,而 OpenAI Deep Research 达到 67%。
根据 Roucher 的说法,Hugging Face 复制版本的一个核心组件使项目运行得如此之好。他们使用了 Hugging Face 的开源 "smolagents" 库来快速起步,该库使用他们称之为"代码代理"而不是基于 JSON 的代理。这些代码代理用编程代码编写它们的动作,据报道在完成任务时效率提高了 30%。这种方法使系统能够更简洁地处理复杂的动作序列。
开源 AI 的发展速度
与其他开源 AI 应用程序一样,Open Deep Research 的开发者在设计迭代方面毫不懈怠,这部分要归功于外部贡献者。而且像其他开源项目一样,团队借鉴了他人的工作,这缩短了开发时间。例如,Hugging Face 使用了借鉴自 2024 年底 Microsoft Research 的 Magnetic-One 代理项目的网页浏览和文本检查工具。
虽然这个开源研究代理的性能还未能匹配 OpenAI,但其发布让开发者可以免费访问、研究和修改这项技术。该项目展示了研究社区能够快速复制并公开分享之前只能通过商业提供商获得的 AI 功能。
"我认为 (基准测试) 对于困难问题来说相当具有指示性,"Roucher 说。"但在速度和用户体验方面,我们的解决方案还远未达到他们那样的优化程度。"
Roucher 表示,未来对其研究代理的改进可能包括支持更多文件格式和基于视觉的网页浏览功能。Hugging Face 已经在着手克隆 OpenAI 的 Operator,后者可以在网页浏览器环境中执行其他类型的任务 (如查看计算机屏幕和控制鼠标键盘输入)。
Hugging Face 已经在 GitHub 上公开发布了其代码,并开放了工程师职位以帮助扩展项目功能。
"反响非常好,"Roucher 告诉 Ars。"我们有很多新的贡献者加入并提出建议。有点像在冲浪时抓住浪头的感觉,社区真的提供了强大的动力!"
好文章,需要你的鼓励
随着数字化时代的到来,网络安全威胁呈指数级增长。勒索软件、AI驱动的网络攻击和物联网设备漏洞成为主要威胁。企业需要建立全面的风险管理策略,包括风险评估、安全措施实施和持续监控。新兴技术如人工智能、区块链和量子计算为网络安全带来新机遇。组织应重视员工培训、供应链安全、数据治理和事件响应能力建设。
滑铁卢大学研究团队开发出ScholarCopilot,一个革命性的AI学术写作助手。该系统突破传统"先检索后生成"模式,实现写作过程中的动态文献检索和精确引用。基于50万篇arXiv论文训练,引用准确率达40.1%,大幅超越现有方法。在人类专家评估中,引用质量获100%好评,整体表现优于ChatGPT。这项创新为AI辅助学术写作开辟新道路。
AWS Amazon Bedrock负责人Atul Deo正致力于让人工智能软件变得更便宜和更智能。他在12月re:Invent大会前只有六个月时间来证明这一目标的可行性。Deo表示AI领域发展速度前所未有,模型每几周就会改进,但客户只有在经济效益合理时才会部署。为此,AWS推出了提示缓存、智能路由、批处理模式等功能来降低推理成本,同时开发能执行多步骤任务的自主代理软件,将AI应用从聊天机器人转向实际业务流程自动化。
哥伦比亚大学研究团队发布NodeRAG技术,通过异构图结构革新智能问答系统。该方法将文档信息分解为7种节点类型,采用双重搜索机制,在多个权威测试中准确率达89.5%,检索效率提升50%以上,为智能信息检索技术带来重大突破。