2025 年初的一个显著特征是 AI 行业传来的快速新闻。模型在一周接一周地进化,各公司在硬件和专业应用等方面投入巨资。现在,这些努力的成果也开始以消费技术的形式呈现。
Google 的双管齐下就是一个很好的例子。目前,Gemini 1 正在终端设备中部署,并向普通用户推广。与此同时,Gemini 2 也在大规模开发中,项目相关人员正在展示新的 AI 代理技术。
还有 Google 的 Notebook LM。它正在引起广泛关注 - 因为通过快速发展,Notebook LM 现在已经不仅仅是一个笔记工具。Google 正在展示 Notebook LM 的新功能。我最近看到了其中一个演示,非常令人启发。Google 正在拥抱 AI 代理的理念,并向世界展示这种技术如何运作。
代理与任务
从 Sundar Pichai 等人在 Google 博客上解释这种代理技术的构建时,他们谈到了"原生工具使用"。这意味着 AI 实体将能够像人类一样使用工具。
"我们今天就让开发者和可信测试者使用 2.0 版本,"领导团队在一份可能对行业产生重大影响的公告中写道。"我们正在迅速将其整合到产品中,首先是 Gemini 和搜索。从今天开始,我们的 Gemini 2.0 Flash 实验模型将向所有 Gemini 用户开放。我们还推出了一个名为 Deep Research 的新功能,它利用高级推理和长上下文能力作为研究助手,探索复杂主题并代表您编写报告。该功能现已在 Gemini Advanced 中提供。"
AI 代理即将到来。这意味着它们将开始执行那些一直由人类完成的任务。
最近在观看 Notebook LM 的实际演示时,我看到销售人员如何能够将他们的日常工作自动化。AI 代理可以联系销售漏斗中的最后接触点,并从中获取信息。AI 代理可以创建机会路线图。AI 代理可以浏览专有内容管理系统,查看过去两周发布的所有内容,并据此做出决策。
可能性是无限的。
这也引发了我们对人类在业务流程中角色定位的思考...
代理与规划
演示中另一个引起我注意的部分是,演示者使用 Notebook LM 进行长期规划。假设你需要一个项目的五年计划,或者只是想做些 SWOT 分析。在 2021 年之前,人们会用便利贴记录流程的各个部分,然后整理得出结果。现在我们可以让 AI 代理来做这些。我们不必问它们是如何完成的,只需要坐下来让它们工作即可。
我还看到了 Geoff Hinton 的一次采访,他解释了代理式 AI 可能如何从人类操作者手中接管大量控制权。当我们看到这些技术突飞猛进时,这是需要考虑的另一面。
还有搜索方面的应用。
"没有哪个产品比搜索更多地被 AI 改变,"Sundar Pichai 写道。"我们的 AI 概览现在覆盖 10 亿人,使他们能够提出全新类型的问题 — 迅速成为我们最受欢迎的搜索功能之一。作为下一步,我们正将 Gemini 2.0 的高级推理能力引入 AI 概览,以处理更复杂的主题和多步骤问题,包括高级数学方程、多模态查询和编码。我们本周开始了有限测试,明年初将更广泛地推出。明年,我们将继续将 AI 概览引入更多国家和语言。"
这一切都令人振奋。
资产盘点
还有一个我个人提到的用例,我认为它可能会比大多数其他用例更受欢迎。这与 Gmail 的使用有关。
我们的收件箱内容过多。有时候我们很难跟上,至少我知道我是这样。如果 AI 代理能够简单地浏览你的 Gmail 账户,并为你带来最相关和最需要采取行动的内容呢?
这将是那些明星级应用之一,在我看来,非常符合当前的时代精神。让我们继续关注这个新兴产品,因为它可能是我们这个时代 AI 代理使用的主要催化剂之一。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。