英国交通部(DfT)与谷歌云及艾伦·图灵研究所合作,共同开发了一款名为"咨询分析工具"(CAT)的系统,专门用于分析公众在政府咨询活动中提交的反馈意见。
艾伦·图灵研究所于2025年12月发布的一份报告指出,该项目是交通部推动人工智能(AI)工具应用、提升部门效能这一目标的重要组成部分。CAT工具能够对公众咨询反馈进行主题分析,通过大语言模型将市民提交的自由文本内容归类至相应主题。
报告作者指出,尽管利用大语言模型开展主题分析相对容易,但"设计出符合人类偏好、具备适当人工监督机制并拥有完善性能评估框架的系统,则要复杂得多"。
团队重点关注的问题之一是人口统计偏见。报告指出,尽管CAT在大语言模型的提示词中并未明确使用任何人口统计变量,但"大语言模型在处理英语表达不规范或含有社会文化特定用语(如冗长表述或俚语)的回复时,表现可能会有所下降"。
鉴于参与公众咨询的市民均为自愿参与,报告作者表示:"我们认为,将有限的人力资源集中用于确保主题生成环节的准确性与质量,尤为重要。"
报告作者还表示,引入"人在回路"机制能够及时发现AI可能出现的错误或误判,同时确保人类判断在理解公众意见方面始终处于核心地位。他们补充道:"我们的方案将人工监督正式纳入主题审核环节,以及分析和报告撰写阶段。在这些阶段,用户会对CAT生成的分析结果进行核查,并筛选具有代表性的引用内容。"
CAT采用大语言模型流水线,将公众咨询中每一条个人回复与经人工验证的主题进行对应匹配。匹配过程采用"多数投票"机制——多个大语言模型分别对某条咨询回复进行主题分类,只有当多数模型达成一致时,该主题才会被正式归类到该条回复。这一机制通常被称为"大语言模型即裁判"(LLM-as-a-judge)。报告作者认为,该技术能够在回复与主题之间建立全面的映射关系。
报告同时指出,CAT在将主题与特定人口群体的回复进行匹配时,准确率系统性地偏低。但报告也强调,CAT的设计包含多项降低偏见的保障措施,包括在提示词中排除人口统计变量,以及对所有CAT生成主题实施人工审核。
报告作者表示:"在人工审核的支持下,从数据集中提取所有'真实'核心主题的概率趋近于100%,而这正是CAT在实际应用中的工作方式。"
CAT基于谷歌的Vertex AI平台构建,并使用Gemini模型。据交通部介绍,该工具能够在数小时内完成公众反馈的主题识别与分类,而此前同样的工作往往需要数月时间。目前,CAT已被用于支持"综合国家交通战略"公众回复的分析工作,并协助改进驾驶考试预约规则。
Q&A
Q1:CAT咨询分析工具是什么?它有什么用途?
A:CAT(咨询分析工具)是英国交通部联合谷歌云和艾伦·图灵研究所共同开发的AI系统,基于谷歌Vertex AI平台和Gemini模型构建。它的主要用途是通过大语言模型对公众咨询中的自由文本反馈进行主题分析,能够在数小时内完成过去需要数月才能完成的主题识别与分类工作,已应用于综合国家交通战略分析及驾驶考试预约规则改进等项目。
Q2:CAT工具如何防止AI分析产生人口统计偏见?
A:CAT采取了多项措施来降低偏见风险:首先,在大语言模型的提示词中不引入任何人口统计变量;其次,引入"人在回路"机制,对所有CAT生成的主题进行人工审核,确保AI的错误或误判能被及时发现;此外,在分析和报告撰写阶段,用户也会对CAT生成的结果进行核查并筛选代表性引用,从而使核心主题的提取准确率趋近100%。
Q3:CAT使用的"多数投票"机制是怎么运作的?
A:CAT采用"多数投票"系统进行主题映射,即让多个大语言模型分别对同一条公众咨询回复进行主题分类,只有当多数模型对某一主题达成一致时,该主题才会被正式归类到对应的回复。这种机制也被称为"大语言模型即裁判"(LLM-as-a-judge),能够在回复与主题之间建立更全面、更可靠的映射关系。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。