DeepMind 创始人兼首席执行官 Demis Hassabis 表示,人工智能 (AI) 的许多能力可能需要长达 10 年时间才能充分展现。
在庆祝音频生成模型 Chirp 3 在 Google Vertex AI 平台上发布的活动中,Hassabis 表示,在这段时间内,AI 将进化为通用人工智能,届时 AI 系统将展现出人类的"认知能力"。他补充说:"这将是一个重要时刻,我们终于实现了一种通用智能,这也是整个 AI 领域的最初目标。"
Chirp 3 音频生成模型现已在 31 种语言中全面可用,提供 248 种不同的声音和 8 种说话人选项。据 Google 介绍,Vertex AI 上的 Chirp 3 提供了详细的语音功能,能够捕捉人类语调的细微差别,使对话更具吸引力和沉浸感。它可以应用于语音标注、实时会议转录、有声读物和客户通话情感收集等场景。
Google Cloud 还宣布将其英国数据驻留承诺扩展到 Google Agentspace,该服务将于 2025 年第二季度推出。Agentspace 提供的 AI 代理将 Gemini 的推理能力与 Google 搜索和企业数据相结合,无论数据托管在何处。
Google Cloud 表示,Agentspace 包含一个统一的、带有公司品牌的多模态搜索代理,员工可以使用它来回答复杂问题,并根据组织的专有信息(包括非结构化数据,如文档和存储在第三方应用程序中的信息)采取特定行动。它还包括一个名为 NotebookLM Enterprise 的功能,Google Cloud 表示该功能可以帮助员工快速综合大量信息以发现新的洞察。
代理时代
在谈到 AI 短期到中期的发展时,Hassabis 表示:"我们一直在改进模型的'思考部分',因此推理时间和计算将是今年的一个重要议题,因为系统变得更像代理。"这涉及 AI 代理在行动之前花更多时间思考和规划。
分析公司 Forrester 将代理式 AI 视为能够自主规划、决策和行动的 AI 系统,它们可以在最少人工干预的情况下编排复杂的工作流程。在一篇博客文章中,Forrester 分析师表示,代理式 AI 系统不仅有望成为知识经济的支柱,还将完全重新定义组织的运营和竞争方式。
Hassabis 表示,基于代理的 AI 效果已经开始显现。"它们不仅仅是被动的问答系统,还可以将问题分解为子目标,然后选择这些目标。"
DeepMind 此前曾在游戏中使用过这种问题解决方法,比如在 2016 年击败围棋世界冠军李世石的 AI 系统 AlphaGo。然而,Hassabis 表示:"游戏非常有限,而且相对简单。规则是预设的信息,所以相比现实世界,这些是相对简单的设置。"
DeepMind 和其他 AI 开发者面临的挑战是,如何快速让 AI 系统普遍展现出在现实世界中可靠运作所需的规划和推理行为。
虽然 Hassabis 表示 AI 世界模型在过去几年取得了良好进展,但挑战在于如何最好地将这些模型与规划算法结合起来。Hassabis 举例说明了为什么这非常困难:"如果你的 AI 模型有 1% 的错误率,而你计划执行 5,000 个步骤,那么这 1% 就会像复利一样累积。"
到 5,000 个步骤完成时,根据 Hassabis 的说法,由于错误的复合效应,答案正确的可能性变得随机。他说:"对于游戏模型,你有国际象棋或围棋的规则。"这有助于规划算法做出正确的决策。"在现实世界中,你没有完美的信息。有我们不知道的隐藏信息,所以我们需要能够理解周围世界的 AI 模型。"
对 Hassabis 来说,未来几年预期出现的一个有趣发展是部署多个协同工作的 AI 代理来解决问题。
他说:"我们过去在《星际争霸 II》(实时战略游戏)等方面做了大量工作,在那里你有一个代理社会或代理联盟,它们可以竞争或合作。"
如果代理能够帮助人们完成任务,Hassabis 认为拥有一整套具有互补技能的代理是有意义的。他补充说:"这些代理应该如何相互合作或竞争是一个非常有趣的研究方向。"
他预计这类多代理 AI 系统将在未来几年内开始发挥作用。"你有一个通用代理的概念,比如 Gemini,但它可以调用专门的代理来处理数学或编程等任务,"他说。
尽管这些本身就是 AI 系统,但 Hassabis 表示 AI 代理可能成为通用 AI 系统用来解决问题的工具之一。
将不同类型的 AI 技术结合在一起的早期例子可以在几周前发布的 AI Co-scientist 工具中看到。据 Hassabis 介绍,这是一个混合系统,底层使用了 Gemini,但它也使用专门的 AI 系统来查找科学论文并尝试在不同研究成果之间建立联系。
Co-scientist 旨在模拟科学方法背后的推理过程,根据 Google 的说法,它的目的是发现新的原创知识,并根据先前的证据和特定的研究目标,形成可论证的新研究假设和建议。
好文章,需要你的鼓励
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
Coursera在2025年连接大会上宣布多项AI功能更新。10月将推出角色扮演功能,通过AI人物帮助学生练习面试技巧并获得实时反馈。新增AI评分系统可即时批改代码、论文和视频作业。同时引入完整性检查和监考系统,通过锁定浏览器和真实性验证打击作弊行为,据称可减少95%的不当行为。此外,AI课程构建器将扩展至所有合作伙伴,帮助教育者快速设计课程。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。