阿里巴巴集团的研究人员开发出一种新方法,该方法有望显著降低训练 AI 系统以搜索信息的成本和复杂性,从而完全消除对昂贵的商业搜索引擎 API 的需求。
这种名为 “ZeroSearch” 的技术,允许大语言模型 ( LLMs ) 通过模拟方法而非在训练过程中与真实搜索引擎进行交互,从而发展出先进的搜索能力。这一创新不仅能够为企业节省大量 API 开支,同时也能更好地控制 AI 系统学习如何检索信息的过程。
研究人员在本周公布于 arXiv 的论文中写道: “强化学习 ( RL ) 训练需要频繁的 rollout ,可能涉及数十万次搜索请求,因此会产生巨额的 API 费用,严重限制了可扩展性。为了解决这些问题,我们引入了 ZeroSearch ,这是一种强化学习框架,激发大语言模型 ( LLMs ) 的搜索能力,而无需与真实搜索引擎进行交互。”
阿里巴巴刚刚在 Hugging Face 上发布了 ZeroSearch 激发大语言模型 ( LLMs ) 的搜索能力而无需搜索 pic.twitter.com/QfniJNO3LH
— AK (@_akhaliq)
2025 年 5 月 8 日
如何用 ZeroSearch 训练 AI 在无需搜索引擎的情况下进行搜索
ZeroSearch 解决的问题十分重要。开发能够自主搜索信息的 AI 助手的公司面临两大挑战:其一是训练过程中由搜索引擎返回的文档质量不可预测,其二是调用数十万个诸如 Google 等商业搜索引擎 API 所需的费用过高。
阿里巴巴的方法始于一种轻量级的监督式微调过程,该过程将大语言模型 ( LLMs ) 转化为一个检索模块,使其能够根据查询生成既相关又不相关的文档。在强化学习训练过程中,该系统采用了一种研究人员称之为 “基于课程的 rollout 策略” 的方法,逐步降低生成文档的质量。
研究人员解释道:“我们的核心洞见在于,大语言模型 ( LLMs ) 在大规模预训练过程中已获得了广泛的世界知识,并能够根据搜索查询生成相关的文档。真实搜索引擎与模拟用的 LLMs 之间的主要区别在于返回内容的文本风格。”
以极低成本超越 Google
在对七个问答数据集进行的全面实验中,ZeroSearch 不仅与使用真实搜索引擎训练的模型相当,甚至常常超过其性能。值得注意的是,一个拥有 7B 参数的检索模块达到了与 Google 搜索相当的性能,而一个拥有 14B 参数的模块甚至超越了 Google 搜索。
成本节约非常显著。根据研究人员的分析,使用 SerpAPI 通过 Google 搜索进行大约 64,000 次搜索查询的训练费用约为 586.70 美元,而在四块 A100 GPU 上使用一个 14B 参数的模拟大语言模型 ( LLMs ) 训练只需要 70.80 美元,成本降低了 88%。
论文指出:“这证明了在强化学习设置中,使用训练良好的大语言模型 ( LLMs ) 替代真实搜索引擎的可行性。”
这一成果对 AI 开发的未来意味着什么
这一突破标志着训练 AI 系统方法的重大转变。ZeroSearch 表明,AI 可以在不依赖外部工具(如搜索引擎)的情况下不断进步。
这一影响对于 AI 行业可能是巨大的。迄今为止,训练先进的 AI 系统通常需要调用受大型科技公司控制的昂贵 API 服务。而 ZeroSearch 改变了这一局面,让 AI 通过模拟搜索而非使用真实搜索引擎来实现搜索功能。
对于预算有限的小型 AI 公司和初创企业来说,这一方法可能会使竞争环境更为公平。高昂的 API 调用费用一直是开发高阶 AI 助手的主要门槛。通过将这些成本削减近 90%,ZeroSearch 使得先进的 AI 训练更加普及。
除了节约成本,此技术还使开发者能够更好地控制训练过程。当使用真实搜索引擎时,返回文档的质量往往难以预测。而通过模拟搜索,开发者可以精确地掌控在训练过程中 AI 接收到的信息。
这一技术适用于多个模型系列,包括 Qwen-2.5 和 LLaMA-3.2,无论是基础模型还是经过指令调优的变体。研究人员已在 GitHub 和 Hugging Face 上公开了他们的代码、数据集和预训练模型,使其他研究人员和公司能够实现这一方法。
随着大语言模型 ( LLMs ) 的不断演进,像 ZeroSearch 这样的技术预示着未来:AI 系统可以通过自我模拟来发展出越来越复杂的能力,而不再依赖外部服务 —— 这有可能改变 AI 开发的经济模式,并减少对大型科技平台的依赖。
具有讽刺意味的是,通过教会 AI 在不使用搜索引擎的情况下进行搜索,阿里巴巴可能已经创造出一种技术,使得传统搜索引擎在 AI 开发中的作用变得不再那么必要。随着这些系统变得越来越自给自足,技术领域在短短几年内可能会呈现出截然不同的局面。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。