AI创新者们一年多来一直告诉我们,AI就是全新的用户界面。随着谷歌发布其号称史上最智能的Gemini 3模型,这一点变得更加明显。Gemini 3融入了全新的生成式界面模式,能够自动为理解复杂多模态问题答案提供独特的用户界面:这是生成式用户界面领域的重大飞跃。
谷歌搜索工程副总裁伊丽莎白·哈蒙·里德表示:"Gemini 3无与伦比的多模态理解能力和强大的智能体编程能力,正在开启更多定制化的生成式用户界面。现在,AI模式下的Gemini 3能够动态创建理想的视觉布局来实时响应——具备交互式工具和模拟功能——根据您的查询量身定制。"
谷歌表示,Gemini 3提供了更强的推理能力和对人类意图的更深理解。它在谷歌庞大的搜索结果语料库中找到相关答案的能力更强,而且更不容易迎合用户想听的内容,而是告诉用户最可能真实的信息。
然而,最大的创新在于生成式用户界面:为回答我们的问题而定制构建的交互式软件界面。
谷歌提供的一个例子是解释三体问题。为了回答这个问题,Gemini 3生成了一个即时物理演示,展示三个在太空中轨道运行的物体通常如何趋向不稳定。谷歌提供的另一个例子是关于抵押贷款还款选项的回答,Gemini 3为此即时生成了一个交互式抵押贷款计算器,允许用户输入不同的时间线、利率、首付款和房价。
在某种程度上,这是AI接近万能软件节点的表现:即高端AI模型能够动态模拟或创建针对任何给定需求集合的最优用户界面的阶段。所有大型大语言模型(如ChatGPT和Claude)都倾向于贬低定制化用户界面,因为我们告诉它们我们想要什么结果,而不是在界面中点击来实现期望的输出。但谷歌的Gemini 3现在很可能是最有能力即时发明有用新界面的模型,用以展示答案、促进对流程的深度理解,并基于输入变化实现答案的快速调整。
计算机界面专家雅各布·尼尔森认为这具有重大意义,他表示AI是计算历史上第三种用户界面范式。
尼尔森在2023年说:"通过这种以当前生成式AI为代表的新UI范式,用户告诉计算机期望的结果,但不指定如何实现这个结果。与传统的命令式交互相比,这种范式完全颠倒了控制权的位置。"
这让人想起史蒂夫·乔布斯如何推销第一代iPhone的全屏、即时变化、软件定义的用户界面,将其与之前智能手机的固定用户界面进行比较,后者将一半空间专门用于物理键盘和按钮。
但现在,用户界面不再是由软件工程师一次性定义、用户在几个月或几年内简单使用他们提供的界面,而是AI引擎即时实例化新界面,并在不再需要或有用时同样快速地删除它们。
这本质上是一场计算革命:正如尼尔森所说,这是整个计算历史上第三次重大转变。(第一次是批处理;第二次是命令式交互。)
谷歌的里德说:"也许您正在研究抵押贷款:AI模式下的Gemini 3可以直接在响应中为您制作定制的交互式贷款计算器,这样您就可以比较两个不同的选项,看看哪个提供最多的长期节省。"
虽然新的计算模型不一定会完全消除旧模型——尽管计算机几十年来一直能够接受口述,我们仍然使用键盘——但我们很可能会看到这种生成式界面成为未来所有软件的重要组成部分。而且,理论上,一个足够先进的AI模型可以在需要时成为我们任何给定任务可能需要的任何软件界面。
这可能还有很长的路要走,而且可能永远不会是完成某些任务最高效或最有效的方式。但里德表示,谷歌正在继续研究和完善生成式界面。
Q&A
Q1:什么是生成式用户界面?
A:生成式用户界面是AI根据用户查询动态创建的定制化交互界面。与传统固定界面不同,它能即时生成最适合回答特定问题的视觉布局,包含交互工具和模拟功能,用完即删。
Q2:Gemini 3的生成式界面有哪些实际应用?
A:Gemini 3可以生成物理演示来解释三体问题,展示轨道物体的不稳定性;还能创建交互式抵押贷款计算器,让用户输入不同参数比较贷款方案,帮助做出最优决策。
Q3:生成式界面在计算历史上有什么意义?
A:专家认为这是计算历史上的第三次重大变革,前两次是批处理和命令式交互。新范式让用户直接告诉计算机想要的结果,而非指定实现方式,完全颠倒了传统的控制模式。
好文章,需要你的鼓励
Linux基金会宣布成立代理AI基金会,为AI智能体基础设施开发提供厂商中立的监督。尽管业界承认AI智能体存在安全问题,高德纳咨询公司警告许多企业项目可能因缺乏商业价值而被取消,但基金会仍致力于为AI公司提供中立平台。Anthropic、Block和OpenAI分别贡献了三个项目,包括模型上下文协议、开源AI智能体框架和机器可读文档标准。
快手科技研究团队提出了熵比截断机制,用于解决强化学习训练中AI容易"走偏"的问题。该方法通过监控AI学习前后思维活跃度变化,在关键时刻进行精准干预,既保证训练稳定性又维持探索能力。在数学推理任务中,此方法显著提升了模型性能并改善了训练稳定性,为AI训练领域提供了新的解决思路。
微软计划在未来四年内向印度投资175亿美元,这是该公司在亚洲的最大投资。投资将用于建设新数据中心、AI基础设施和技能培训项目。此举正值全球科技巨头加速在印度布局,该国庞大的互联网和智能手机用户群体使其成为关键战场。投资还包括在海德拉巴建设新数据中心区域,并与印度政府合作将AI能力整合到公共数字平台中。
EditThinker是北京航空航天大学与美团等机构联合研发的图像编辑AI框架,让AI在编辑图片时能够像人类一样进行反复思考和优化。该系统通过"批评-优化-重试"的循环机制,将传统的一次性编辑转变为迭代改进过程,在四个权威测试平台上显著提升了现有编辑模型的表现,特别是在需要复杂推理的编辑任务中效果突出。