2025 年初的一个显著特征是 AI 行业传来的快速新闻。模型在一周接一周地进化,各公司在硬件和专业应用等方面投入巨资。现在,这些努力的成果也开始以消费技术的形式呈现。
Google 的双管齐下就是一个很好的例子。目前,Gemini 1 正在终端设备中部署,并向普通用户推广。与此同时,Gemini 2 也在大规模开发中,项目相关人员正在展示新的 AI 代理技术。
还有 Google 的 Notebook LM。它正在引起广泛关注 - 因为通过快速发展,Notebook LM 现在已经不仅仅是一个笔记工具。Google 正在展示 Notebook LM 的新功能。我最近看到了其中一个演示,非常令人启发。Google 正在拥抱 AI 代理的理念,并向世界展示这种技术如何运作。
代理与任务
从 Sundar Pichai 等人在 Google 博客上解释这种代理技术的构建时,他们谈到了"原生工具使用"。这意味着 AI 实体将能够像人类一样使用工具。
"我们今天就让开发者和可信测试者使用 2.0 版本,"领导团队在一份可能对行业产生重大影响的公告中写道。"我们正在迅速将其整合到产品中,首先是 Gemini 和搜索。从今天开始,我们的 Gemini 2.0 Flash 实验模型将向所有 Gemini 用户开放。我们还推出了一个名为 Deep Research 的新功能,它利用高级推理和长上下文能力作为研究助手,探索复杂主题并代表您编写报告。该功能现已在 Gemini Advanced 中提供。"
AI 代理即将到来。这意味着它们将开始执行那些一直由人类完成的任务。
最近在观看 Notebook LM 的实际演示时,我看到销售人员如何能够将他们的日常工作自动化。AI 代理可以联系销售漏斗中的最后接触点,并从中获取信息。AI 代理可以创建机会路线图。AI 代理可以浏览专有内容管理系统,查看过去两周发布的所有内容,并据此做出决策。
可能性是无限的。
这也引发了我们对人类在业务流程中角色定位的思考...
代理与规划
演示中另一个引起我注意的部分是,演示者使用 Notebook LM 进行长期规划。假设你需要一个项目的五年计划,或者只是想做些 SWOT 分析。在 2021 年之前,人们会用便利贴记录流程的各个部分,然后整理得出结果。现在我们可以让 AI 代理来做这些。我们不必问它们是如何完成的,只需要坐下来让它们工作即可。
我还看到了 Geoff Hinton 的一次采访,他解释了代理式 AI 可能如何从人类操作者手中接管大量控制权。当我们看到这些技术突飞猛进时,这是需要考虑的另一面。
还有搜索方面的应用。
"没有哪个产品比搜索更多地被 AI 改变,"Sundar Pichai 写道。"我们的 AI 概览现在覆盖 10 亿人,使他们能够提出全新类型的问题 — 迅速成为我们最受欢迎的搜索功能之一。作为下一步,我们正将 Gemini 2.0 的高级推理能力引入 AI 概览,以处理更复杂的主题和多步骤问题,包括高级数学方程、多模态查询和编码。我们本周开始了有限测试,明年初将更广泛地推出。明年,我们将继续将 AI 概览引入更多国家和语言。"
这一切都令人振奋。
资产盘点
还有一个我个人提到的用例,我认为它可能会比大多数其他用例更受欢迎。这与 Gmail 的使用有关。
我们的收件箱内容过多。有时候我们很难跟上,至少我知道我是这样。如果 AI 代理能够简单地浏览你的 Gmail 账户,并为你带来最相关和最需要采取行动的内容呢?
这将是那些明星级应用之一,在我看来,非常符合当前的时代精神。让我们继续关注这个新兴产品,因为它可能是我们这个时代 AI 代理使用的主要催化剂之一。
好文章,需要你的鼓励
Queen's大学研究团队提出结构化智能体软件工程框架SASE,重新定义人机协作模式。该框架将程序员角色从代码编写者转变为AI团队指挥者,建立双向咨询机制和标准化文档系统,解决AI编程中的质量控制难题,为软件工程向智能化协作时代转型提供系统性解决方案。
苹果在iOS 26公开发布两周后推出首个修复更新iOS 26.0.1,建议所有用户安装。由于重大版本发布通常伴随漏洞,许多用户此前选择安装iOS 18.7。尽管iOS 26经过数月测试,但更大用户基数能发现更多问题。新版本与iPhone 17等新机型同期发布,测试范围此前受限。预计苹果将继续发布后续修复版本。
西北工业大学与中山大学合作开发了首个超声专用AI视觉语言模型EchoVLM,通过收集15家医院20万病例和147万超声图像,采用专家混合架构,实现了比通用AI模型准确率提升10分以上的突破。该系统能自动生成超声报告、进行诊断分析和回答专业问题,为医生提供智能辅助,推动医疗AI向专业化发展。