2025 年初的一个显著特征是 AI 行业传来的快速新闻。模型在一周接一周地进化,各公司在硬件和专业应用等方面投入巨资。现在,这些努力的成果也开始以消费技术的形式呈现。
Google 的双管齐下就是一个很好的例子。目前,Gemini 1 正在终端设备中部署,并向普通用户推广。与此同时,Gemini 2 也在大规模开发中,项目相关人员正在展示新的 AI 代理技术。
还有 Google 的 Notebook LM。它正在引起广泛关注 - 因为通过快速发展,Notebook LM 现在已经不仅仅是一个笔记工具。Google 正在展示 Notebook LM 的新功能。我最近看到了其中一个演示,非常令人启发。Google 正在拥抱 AI 代理的理念,并向世界展示这种技术如何运作。
代理与任务
从 Sundar Pichai 等人在 Google 博客上解释这种代理技术的构建时,他们谈到了"原生工具使用"。这意味着 AI 实体将能够像人类一样使用工具。
"我们今天就让开发者和可信测试者使用 2.0 版本,"领导团队在一份可能对行业产生重大影响的公告中写道。"我们正在迅速将其整合到产品中,首先是 Gemini 和搜索。从今天开始,我们的 Gemini 2.0 Flash 实验模型将向所有 Gemini 用户开放。我们还推出了一个名为 Deep Research 的新功能,它利用高级推理和长上下文能力作为研究助手,探索复杂主题并代表您编写报告。该功能现已在 Gemini Advanced 中提供。"
AI 代理即将到来。这意味着它们将开始执行那些一直由人类完成的任务。
最近在观看 Notebook LM 的实际演示时,我看到销售人员如何能够将他们的日常工作自动化。AI 代理可以联系销售漏斗中的最后接触点,并从中获取信息。AI 代理可以创建机会路线图。AI 代理可以浏览专有内容管理系统,查看过去两周发布的所有内容,并据此做出决策。
可能性是无限的。
这也引发了我们对人类在业务流程中角色定位的思考...
代理与规划
演示中另一个引起我注意的部分是,演示者使用 Notebook LM 进行长期规划。假设你需要一个项目的五年计划,或者只是想做些 SWOT 分析。在 2021 年之前,人们会用便利贴记录流程的各个部分,然后整理得出结果。现在我们可以让 AI 代理来做这些。我们不必问它们是如何完成的,只需要坐下来让它们工作即可。
我还看到了 Geoff Hinton 的一次采访,他解释了代理式 AI 可能如何从人类操作者手中接管大量控制权。当我们看到这些技术突飞猛进时,这是需要考虑的另一面。
还有搜索方面的应用。
"没有哪个产品比搜索更多地被 AI 改变,"Sundar Pichai 写道。"我们的 AI 概览现在覆盖 10 亿人,使他们能够提出全新类型的问题 — 迅速成为我们最受欢迎的搜索功能之一。作为下一步,我们正将 Gemini 2.0 的高级推理能力引入 AI 概览,以处理更复杂的主题和多步骤问题,包括高级数学方程、多模态查询和编码。我们本周开始了有限测试,明年初将更广泛地推出。明年,我们将继续将 AI 概览引入更多国家和语言。"
这一切都令人振奋。
资产盘点
还有一个我个人提到的用例,我认为它可能会比大多数其他用例更受欢迎。这与 Gmail 的使用有关。
我们的收件箱内容过多。有时候我们很难跟上,至少我知道我是这样。如果 AI 代理能够简单地浏览你的 Gmail 账户,并为你带来最相关和最需要采取行动的内容呢?
这将是那些明星级应用之一,在我看来,非常符合当前的时代精神。让我们继续关注这个新兴产品,因为它可能是我们这个时代 AI 代理使用的主要催化剂之一。
好文章,需要你的鼓励
香港中文大学与华为诺亚方舟实验室合作开发了PreMoe框架,解决了大型混合专家模型(MoE)在内存受限设备上的部署难题。研究团队发现MoE模型中的专家表现出明显的任务专业化特征,据此提出了概率专家精简(PEP)和任务自适应专家检索(TAER)两大核心技术。实验证明,DeepSeek-R1 671B模型在精简50%专家后仍保持97.2%的MATH500准确率,内存需求降至688GB;而更激进的精简方案(减少87.5%专家)也能保持72.0%的准确率。该方法适用于多种MoE架构,为强大AI系统的广泛部署铺平了道路。
SCIENCEBOARD是一项开创性研究,旨在评估多模态自主智能体在真实科学工作流中的表现。研究团队构建了一个包含169个高质量任务的基准测试,涵盖生物化学、天文学等六个科学领域,并开发了一个真实环境让智能体通过CLI或GUI接口与科学软件交互。实验评估表明,即使是最先进的模型在这些复杂科学任务上的成功率也仅为15%,远低于人类表现,揭示了当前技术的局限性并为未来科学智能体的发展提供了宝贵见解。
帝国理工学院的研究团队开发了AlphaMed,这是首个仅通过极简规则强化学习就能培养医疗推理能力的AI模型,无需依赖传统的思维链示范数据。通过分析数据信息丰富度和难度分布的影响,研究发现高信息量的医疗问答数据是推理能力的关键驱动因素。AlphaMed在六个医疗问答基准上取得了领先成绩,甚至超越了更大的封闭源模型,同时展现出自发的步骤推理能力,为医疗AI发展提供了更加开放、高效的新路径。
Alita是一种新型通用AI代理系统,采用极简设计理念,以"最小预定义,最大自我进化"为原则构建。由普林斯顿大学等多家机构研究团队开发的Alita,只配备一个核心能力和少量通用模块,能自主创建所需工具并重用为模型上下文协议(MCPs)。实验显示,Alita在GAIA基准测试上达到87.27%的通过率,超越包括OpenAI Deep Research在内的复杂系统,证明简约设计可带来卓越性能。