周二,Hugging Face 的研究人员发布了一个名为 "Open Deep Research" 的开源 AI 研究代理,这是由其内部团队在 OpenAI 发布 Deep Research 功能后的 24 小时内完成的挑战。该代理能够自主浏览网络并创建研究报告。这个项目旨在匹配 Deep Research 的性能,同时让这项技术免费提供给开发者使用。
Hugging Face 在其公告页面中写道:"虽然现在强大的大语言模型已经在开源领域freely可用,但 OpenAI 并未透露太多关于 Deep Research 底层代理框架的信息。所以我们决定展开一个 24 小时的任务,重现他们的结果并同时开源所需的框架!"
与 OpenAI 的 Deep Research 和 Google 使用 Gemini 实现的 "Deep Research" (最早在 12 月推出,早于 OpenAI) 类似,Hugging Face 的解决方案在现有 AI 模型基础上添加了一个"代理"框架,使其能够执行多步骤任务,比如收集信息并在过程中构建最终呈现给用户的报告。
这个开源克隆版本已经在基准测试中取得了相当的成绩。仅用一天时间,Hugging Face 的 Open Deep Research 在通用 AI 助手 (GAIA) 基准测试中达到了 55.15% 的准确率。该基准测试用于评估 AI 模型从多个来源收集和综合信息的能力。相比之下,OpenAI 的 Deep Research 在单次响应中获得了 67.36% 的准确率 (当使用共识机制组合 64 个响应时,OpenAI 的分数上升到 72.57%)。
正如 Hugging Face 在其文章中指出,GAIA 包含了复杂的多步骤问题,例如:
2008 年的画作《来自乌兹别克斯坦的刺绣》中显示的水果中,哪些被作为后来用作电影《最后的航程》道具的远洋客轮 1949 年 10 月早餐菜单的一部分?请按照画作中水果的顺时针排列顺序 (从 12 点位置开始) 用逗号分隔列出这些水果。使用每种水果的复数形式。
要正确回答这类问题,AI 代理必须寻找多个不同的信息来源并将它们组合成一个连贯的答案。GAIA 中的许多问题即使对人类来说也不容易,因此它们很好地测试了代理型 AI 的能力。
选择合适的核心 AI 模型
没有某种现有的 AI 模型作为核心,AI 代理就无法工作。目前,Open Deep Research 通过 API 建立在 OpenAI 的大语言模型 (如 GPT-4o) 或模拟推理模型 (如 o1 和 o3-mini) 之上。但它也可以适配开放权重的 AI 模型。这里的创新之处在于代理结构将所有组件连接在一起,使 AI 语言模型能够自主完成研究任务。
我们采访了领导 Open Deep Research 项目的 Hugging Face 研究员 Aymeric Roucher,询问了团队的 AI 模型选择。他告诉 Ars Technica:"这并不是'开放权重'的,因为我们使用了封闭权重模型,只是因为它运行良好,但我们解释了所有开发过程并展示了代码。它可以切换到任何其他模型,所以支持完全开放的管道。"
Roucher 补充道:"我尝试了很多大语言模型,包括 (Deepseek) R1 和 o3-mini。对于这个用例,o1 效果最好。但随着我们发起的 open-R1 计划,我们可能会用更好的开放模型取代 o1。"
虽然研究代理核心的大语言模型或模拟推理模型很重要,但 Open Deep Research 表明构建正确的代理层是关键,因为基准测试显示多步骤代理方法大大提高了大语言模型的能力:单独使用 OpenAI 的 GPT-4o (没有代理框架) 在 GAIA 基准测试中平均得分为 29%,而 OpenAI Deep Research 达到 67%。
根据 Roucher 的说法,Hugging Face 复制版本的一个核心组件使项目运行得如此之好。他们使用了 Hugging Face 的开源 "smolagents" 库来快速起步,该库使用他们称之为"代码代理"而不是基于 JSON 的代理。这些代码代理用编程代码编写它们的动作,据报道在完成任务时效率提高了 30%。这种方法使系统能够更简洁地处理复杂的动作序列。
开源 AI 的发展速度
与其他开源 AI 应用程序一样,Open Deep Research 的开发者在设计迭代方面毫不懈怠,这部分要归功于外部贡献者。而且像其他开源项目一样,团队借鉴了他人的工作,这缩短了开发时间。例如,Hugging Face 使用了借鉴自 2024 年底 Microsoft Research 的 Magnetic-One 代理项目的网页浏览和文本检查工具。
虽然这个开源研究代理的性能还未能匹配 OpenAI,但其发布让开发者可以免费访问、研究和修改这项技术。该项目展示了研究社区能够快速复制并公开分享之前只能通过商业提供商获得的 AI 功能。
"我认为 (基准测试) 对于困难问题来说相当具有指示性,"Roucher 说。"但在速度和用户体验方面,我们的解决方案还远未达到他们那样的优化程度。"
Roucher 表示,未来对其研究代理的改进可能包括支持更多文件格式和基于视觉的网页浏览功能。Hugging Face 已经在着手克隆 OpenAI 的 Operator,后者可以在网页浏览器环境中执行其他类型的任务 (如查看计算机屏幕和控制鼠标键盘输入)。
Hugging Face 已经在 GitHub 上公开发布了其代码,并开放了工程师职位以帮助扩展项目功能。
"反响非常好,"Roucher 告诉 Ars。"我们有很多新的贡献者加入并提出建议。有点像在冲浪时抓住浪头的感觉,社区真的提供了强大的动力!"
好文章,需要你的鼓励
OpenAI 本周为 ChatGPT 添加了 AI 图像生成功能,用户可直接在对话中创建图像。由于使用量激增,CEO Sam Altman 表示公司的 GPU "正在融化",不得不临时限制使用频率。新功能支持工作相关图像创建,如信息图表等,但在图像编辑精确度等方面仍存在限制。值得注意的是,大量用户正在使用该功能创作吉卜力动画风格的图像。
Synopsys 近期推出了一系列基于 AMD 最新芯片的硬件辅助验证和虚拟原型设计工具,包括 HAPS-200 原型系统和 ZeBu-200 仿真系统,以及面向 Arm 硬件的 Virtualizer 原生执行套件。这些创新工具显著提升了芯片设计和软件开发的效率,有助于加快产品上市速度,满足当前 AI 时代下快速迭代的需求。
人工智能正在深刻改变企业客户关系管理 (CRM) 的方方面面。从销售自动化、营销内容生成到客服智能化,AI不仅提升了运营效率,还带来了全新的服务模式。特别是自主代理AI (Agentic AI) 的出现,有望在多渠道无缝接管客户服务职能,开创CRM发展新纪元。
数据孤岛长期困扰着组织,影响着人工智能的可靠性。它们导致信息分散、模型训练不完整、洞察力不一致。解决方案包括实施强大的数据治理、促进跨部门协作、采用现代数据集成技术等。克服数据孤岛对于充分发挥AI潜力至关重要。