随着AI技术不断进步,真正有用的智能体将能够更好地预测用户需求。为了让移动设备上的体验真正有帮助,底层模型需要理解用户在与其交互时正在做什么(或试图做什么)。一旦理解了当前和之前的任务,模型就有更多上下文来预测潜在的下一步操作。例如,如果用户之前搜索过欧洲的音乐节,现在正在寻找飞往伦敦的航班,智能体可以主动提供在这些特定日期在伦敦举办的音乐节信息。
大型多模态大语言模型已经能够很好地从用户界面(UI)轨迹中理解用户意图。但使用大语言模型执行这项任务通常需要将信息发送到服务器,这可能很慢、成本高昂,并且存在暴露敏感信息的潜在风险。
我们在EMNLP 2025上发表的最新论文"小模型,大成果:通过分解实现卓越意图提取",解决了如何使用小型多模态大语言模型来理解用户在网页和移动设备上的交互序列的问题,并且全部在设备上完成。通过将用户意图理解分为两个阶段——首先分别总结每个屏幕,然后从生成的摘要序列中提取意图,我们使小模型更容易处理这项任务。我们还制定了评估模型性能的正式指标,并显示我们的方法产生了与更大模型相当的结果,展示了其在设备上应用的潜力。
分解式工作流程
我们引入了一种用于从用户交互中理解用户意图的分解工作流程。在推理时,模型执行两个主要步骤。第一步,每个在单一屏幕和UI元素上的单独交互都被独立总结。接下来,这些摘要被用作一系列事件来预测整个UI轨迹的一般意图。
在第一阶段,每个单独的交互都由一个小型多模态大语言模型进行总结。给定三个屏幕的滑动窗口(上一个、当前、下一个),会询问以下问题:屏幕上下文是什么?用户采取了什么行动?用户可能试图实现什么?
在这个阶段,使用经过微调的小模型从屏幕摘要中提取一个句子。在第二阶段的分解工作流程中,使用经过微调的模型,将第一阶段生成的摘要作为输入,输出简洁的意图陈述。在这个阶段,我们从摘要中删除所有推测,并在训练期间清理标签,使其不鼓励幻觉。
评估方法
我们使用Bi-Fact方法来评估预测意图与参考意图的质量。通过这种方法,我们使用单独的大语言模型调用将参考意图和预测意图分解为不能进一步分解的意图细节,我们称之为"原子事实"。例如,"单程航班"将是一个原子事实,而"从伦敦到基加利的航班"将是两个。然后我们计算预测意图所包含的参考事实数量和参考意图所包含的预测事实数量。这使我们能够了解方法的精确度(有多少预测事实是正确的)和召回率(我们正确预测了多少真实事实),并计算F1分数。
实验结果
当使用小模型时,分别总结每个屏幕然后从生成的摘要序列中提取意图的分解方法是有帮助的。我们将其与标准方法(包括思维链提示(CoT)和端到端微调(E2E))进行比较,发现它超越了两者。当我们在移动设备和网页轨迹以及Gemini和Qwen2基础模型上测试时,这个结果都成立。我们甚至发现,将分解方法应用于Gemini 1.5 Flash 8B模型可以实现与使用Gemini 1.5 Pro相当的结果,但成本和速度只是其一小部分。
结论
我们已经表明,轨迹总结的分解方法对于使用小模型进行意图理解是有帮助的。最终,随着模型性能的提高和移动设备获得更多处理能力,我们希望设备上的意图理解能够成为未来移动设备上许多辅助功能的构建基块。
Q&A
Q1:什么是分解式意图提取方法?
A:分解式意图提取是一种将用户意图理解分为两个阶段的方法。第一阶段使用小型多模态大语言模型分别总结每个屏幕上的用户交互,第二阶段使用经过微调的模型从这些摘要序列中提取整体意图。这种方法让小模型更容易处理复杂的用户行为理解任务。
Q2:为什么要使用小模型而不是大型语言模型?
A:使用大语言模型通常需要将信息发送到服务器,这会导致延迟高、成本昂贵,并且存在暴露用户敏感信息的风险。而小模型可以直接在设备上运行,保护用户隐私,降低成本,提高响应速度,同时通过分解方法仍能达到与大模型相当的性能。
Q3:Bi-Fact评估方法是如何工作的?
A:Bi-Fact方法将预测意图和参考意图都分解为不可再分的"原子事实",然后计算预测意图包含的参考事实数量和参考意图包含的预测事实数量。通过这种方式可以得出精确度(预测事实的正确率)和召回率(真实事实的预测覆盖率),进而计算F1分数来综合评估模型性能。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。