小模型大成果：通过分解方法实现卓越意图提取

研究人员提出了一种新颖的分解方法来理解用户界面交互轨迹中的意图。该方法将意图理解分为两个阶段：首先独立总结每个屏幕，然后从生成的摘要序列中提取意图。实验表明，小型多模态模型使用此方法的效果可媲美大型模型，在移动设备和网页轨迹上均表现出色，为设备端应用提供了新的解决方案。

随着AI技术不断进步，真正有用的智能体将能够更好地预测用户需求。为了让移动设备上的体验真正有帮助，底层模型需要理解用户在与其交互时正在做什么（或试图做什么）。一旦理解了当前和之前的任务，模型就有更多上下文来预测潜在的下一步操作。例如，如果用户之前搜索过欧洲的音乐节，现在正在寻找飞往伦敦的航班，智能体可以主动提供在这些特定日期在伦敦举办的音乐节信息。

大型多模态大语言模型已经能够很好地从用户界面（UI）轨迹中理解用户意图。但使用大语言模型执行这项任务通常需要将信息发送到服务器，这可能很慢、成本高昂，并且存在暴露敏感信息的潜在风险。

我们在EMNLP 2025上发表的最新论文"小模型，大成果：通过分解实现卓越意图提取"，解决了如何使用小型多模态大语言模型来理解用户在网页和移动设备上的交互序列的问题，并且全部在设备上完成。通过将用户意图理解分为两个阶段——首先分别总结每个屏幕，然后从生成的摘要序列中提取意图，我们使小模型更容易处理这项任务。我们还制定了评估模型性能的正式指标，并显示我们的方法产生了与更大模型相当的结果，展示了其在设备上应用的潜力。

分解式工作流程

我们引入了一种用于从用户交互中理解用户意图的分解工作流程。在推理时，模型执行两个主要步骤。第一步，每个在单一屏幕和UI元素上的单独交互都被独立总结。接下来，这些摘要被用作一系列事件来预测整个UI轨迹的一般意图。

在第一阶段，每个单独的交互都由一个小型多模态大语言模型进行总结。给定三个屏幕的滑动窗口（上一个、当前、下一个），会询问以下问题：屏幕上下文是什么？用户采取了什么行动？用户可能试图实现什么？

在这个阶段，使用经过微调的小模型从屏幕摘要中提取一个句子。在第二阶段的分解工作流程中，使用经过微调的模型，将第一阶段生成的摘要作为输入，输出简洁的意图陈述。在这个阶段，我们从摘要中删除所有推测，并在训练期间清理标签，使其不鼓励幻觉。

评估方法

我们使用Bi-Fact方法来评估预测意图与参考意图的质量。通过这种方法，我们使用单独的大语言模型调用将参考意图和预测意图分解为不能进一步分解的意图细节，我们称之为"原子事实"。例如，"单程航班"将是一个原子事实，而"从伦敦到基加利的航班"将是两个。然后我们计算预测意图所包含的参考事实数量和参考意图所包含的预测事实数量。这使我们能够了解方法的精确度（有多少预测事实是正确的）和召回率（我们正确预测了多少真实事实），并计算F1分数。

实验结果

当使用小模型时，分别总结每个屏幕然后从生成的摘要序列中提取意图的分解方法是有帮助的。我们将其与标准方法（包括思维链提示（CoT）和端到端微调（E2E））进行比较，发现它超越了两者。当我们在移动设备和网页轨迹以及Gemini和Qwen2基础模型上测试时，这个结果都成立。我们甚至发现，将分解方法应用于Gemini 1.5 Flash 8B模型可以实现与使用Gemini 1.5 Pro相当的结果，但成本和速度只是其一小部分。

结论

我们已经表明，轨迹总结的分解方法对于使用小模型进行意图理解是有帮助的。最终，随着模型性能的提高和移动设备获得更多处理能力，我们希望设备上的意图理解能够成为未来移动设备上许多辅助功能的构建基块。

Q&A

Q1：什么是分解式意图提取方法？

A：分解式意图提取是一种将用户意图理解分为两个阶段的方法。第一阶段使用小型多模态大语言模型分别总结每个屏幕上的用户交互，第二阶段使用经过微调的模型从这些摘要序列中提取整体意图。这种方法让小模型更容易处理复杂的用户行为理解任务。

Q2：为什么要使用小模型而不是大型语言模型？

A：使用大语言模型通常需要将信息发送到服务器，这会导致延迟高、成本昂贵，并且存在暴露用户敏感信息的风险。而小模型可以直接在设备上运行，保护用户隐私，降低成本，提高响应速度，同时通过分解方法仍能达到与大模型相当的性能。

Q3：Bi-Fact评估方法是如何工作的？

A：Bi-Fact方法将预测意图和参考意图都分解为不可再分的"原子事实"，然后计算预测意图包含的参考事实数量和参考意图包含的预测事实数量。通过这种方式可以得出精确度（预测事实的正确率）和召回率（真实事实的预测覆盖率），进而计算F1分数来综合评估模型性能。

来源：Google

0赞

好文章，需要你的鼓励

小模型大成果：通过分解方法实现卓越意图提取

来源：Google

2026

01/23

10:00

分享

点赞

Waymo因洪水问题发布召回，近4000辆自动驾驶车辆受影响

AI驱动的"地面情报"系统：Samsara如何帮助城市主动修复坑洼路面

特斯拉Robotaxi披露两起远程操控事故

特斯拉FSD自动驾驶软件加速进军欧洲市场

Waymo暂停高速公路服务，因自动驾驶出租车难以应对施工区

Waymo自动驾驶车辆注册数量领跑德克萨斯，特斯拉远落后

Siri AI、ChatGPT、Claude真实横评，谁才是最强AI助手？

Uber年度遗失物报告揭示：数千件物品遗留在无人驾驶出租车中

Uber今年将部署500辆数据采集车辆，助力自动驾驶发展

Uber、Wayve与Waymo的伦敦无人驾驶出租车大战即将开启

Mobileye计划2027年在美国推出自动驾驶出租车服务

Waymo召回近4000辆无人出租车，原因是其进入高速公路施工区域

F5推出AI安全防护平台扩展新产品

思科发布2026年1月最新动态与AI基础设施布局进展

NVIDIA RTX PC上视觉生成式AI入门指南

科技行业裁员潮：2026年时间线

ServiceNow将OpenAI模型集成至其AI平台

企业AI投资持续推进但投资回报率仍难捉摸

Anthropic为Claude制定AI智能体行为准则宪法

AI智能体是否已准备好进入职场？新基准测试引发质疑

谷歌推出基于Gemini的免费SAT备考服务

Apple Watch检测房颤准确性研究取得重要进展

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: