AI创新者们一年多来一直告诉我们,AI就是全新的用户界面。随着谷歌发布其号称史上最智能的Gemini 3模型,这一点变得更加明显。Gemini 3融入了全新的生成式界面模式,能够自动为理解复杂多模态问题答案提供独特的用户界面:这是生成式用户界面领域的重大飞跃。
谷歌搜索工程副总裁伊丽莎白·哈蒙·里德表示:"Gemini 3无与伦比的多模态理解能力和强大的智能体编程能力,正在开启更多定制化的生成式用户界面。现在,AI模式下的Gemini 3能够动态创建理想的视觉布局来实时响应——具备交互式工具和模拟功能——根据您的查询量身定制。"
谷歌表示,Gemini 3提供了更强的推理能力和对人类意图的更深理解。它在谷歌庞大的搜索结果语料库中找到相关答案的能力更强,而且更不容易迎合用户想听的内容,而是告诉用户最可能真实的信息。
然而,最大的创新在于生成式用户界面:为回答我们的问题而定制构建的交互式软件界面。
谷歌提供的一个例子是解释三体问题。为了回答这个问题,Gemini 3生成了一个即时物理演示,展示三个在太空中轨道运行的物体通常如何趋向不稳定。谷歌提供的另一个例子是关于抵押贷款还款选项的回答,Gemini 3为此即时生成了一个交互式抵押贷款计算器,允许用户输入不同的时间线、利率、首付款和房价。
在某种程度上,这是AI接近万能软件节点的表现:即高端AI模型能够动态模拟或创建针对任何给定需求集合的最优用户界面的阶段。所有大型大语言模型(如ChatGPT和Claude)都倾向于贬低定制化用户界面,因为我们告诉它们我们想要什么结果,而不是在界面中点击来实现期望的输出。但谷歌的Gemini 3现在很可能是最有能力即时发明有用新界面的模型,用以展示答案、促进对流程的深度理解,并基于输入变化实现答案的快速调整。
计算机界面专家雅各布·尼尔森认为这具有重大意义,他表示AI是计算历史上第三种用户界面范式。
尼尔森在2023年说:"通过这种以当前生成式AI为代表的新UI范式,用户告诉计算机期望的结果,但不指定如何实现这个结果。与传统的命令式交互相比,这种范式完全颠倒了控制权的位置。"
这让人想起史蒂夫·乔布斯如何推销第一代iPhone的全屏、即时变化、软件定义的用户界面,将其与之前智能手机的固定用户界面进行比较,后者将一半空间专门用于物理键盘和按钮。
但现在,用户界面不再是由软件工程师一次性定义、用户在几个月或几年内简单使用他们提供的界面,而是AI引擎即时实例化新界面,并在不再需要或有用时同样快速地删除它们。
这本质上是一场计算革命:正如尼尔森所说,这是整个计算历史上第三次重大转变。(第一次是批处理;第二次是命令式交互。)
谷歌的里德说:"也许您正在研究抵押贷款:AI模式下的Gemini 3可以直接在响应中为您制作定制的交互式贷款计算器,这样您就可以比较两个不同的选项,看看哪个提供最多的长期节省。"
虽然新的计算模型不一定会完全消除旧模型——尽管计算机几十年来一直能够接受口述,我们仍然使用键盘——但我们很可能会看到这种生成式界面成为未来所有软件的重要组成部分。而且,理论上,一个足够先进的AI模型可以在需要时成为我们任何给定任务可能需要的任何软件界面。
这可能还有很长的路要走,而且可能永远不会是完成某些任务最高效或最有效的方式。但里德表示,谷歌正在继续研究和完善生成式界面。
Q&A
Q1:什么是生成式用户界面?
A:生成式用户界面是AI根据用户查询动态创建的定制化交互界面。与传统固定界面不同,它能即时生成最适合回答特定问题的视觉布局,包含交互工具和模拟功能,用完即删。
Q2:Gemini 3的生成式界面有哪些实际应用?
A:Gemini 3可以生成物理演示来解释三体问题,展示轨道物体的不稳定性;还能创建交互式抵押贷款计算器,让用户输入不同参数比较贷款方案,帮助做出最优决策。
Q3:生成式界面在计算历史上有什么意义?
A:专家认为这是计算历史上的第三次重大变革,前两次是批处理和命令式交互。新范式让用户直接告诉计算机想要的结果,而非指定实现方式,完全颠倒了传统的控制模式。
好文章,需要你的鼓励
微软在Ignite 2025大会上预览了Windows的重要更新,显示出操作系统向支持AI智能体的根本性转变。新增功能包括原生支持模型上下文协议(MCP)、智能体连接器注册表、明确的权限管控模型,以及独立的智能体工作空间。这些更新建立了OS级别的身份验证、授权和审计机制,让智能体能够安全地执行文件操作和系统设置等任务,同时保持可控性和可追溯性。
华为诺亚实验室等机构联合提出了一种创新的AI训练方法,通过双层优化框架让AI从数据中自动学习评价标准。该方法结合了传统最大似然估计和强化学习的优势,在表格分类和模型驱动强化学习任务中展现出更好的收敛性和泛化能力,为解决强化学习中缺乏明确奖励信号的问题提供了新思路。
苹果即将发布的macOS Tahoe 26.2系统将支持通过雷雳5连接多台Mac设备,构建低延迟AI超算集群。该功能支持Mac Studio、M4 Pro Mac mini和MacBook Pro等设备。四台Mac Studio可高效运行万亿参数的Kimi-K2-Thinking模型,功耗不到500瓦,比传统GPU集群低10倍。此外,MLX项目将获得M5芯片神经加速器的完整访问权限。
中科院自动化所团队发布AVoCaDO系统,这是首个能精准捕捉视听事件时间同步关系的AI视频解说生成器。通过双阶段训练和创新奖励机制,AVoCaDO不仅能识别视频内容,更能准确把握各元素的时间关系,在多个基准测试中显著超越现有开源模型,甚至在某些指标上超过商业模型,为智能视频理解开辟新方向。