英国交通部AI咨询分析工具如何规避偏见问题

英国交通部联合谷歌云与艾伦·图灵研究所，基于Google Vertex AI平台及Gemini模型，开发了咨询分析工具（CAT），用于分析公众咨询反馈。该工具利用大语言模型对公民提交的自由文本进行主题分类，将原本耗时数月的分析工作压缩至数小时。为规避人口统计偏见，CAT采用多模型多数投票机制，并在主题审核及报告撰写阶段引入人工监督，确保分析准确性趋近100%。

英国交通部（DfT）与谷歌云及艾伦·图灵研究所合作，共同开发了一款名为"咨询分析工具"（CAT）的系统，专门用于分析公众在政府咨询活动中提交的反馈意见。

艾伦·图灵研究所于2025年12月发布的一份报告指出，该项目是交通部推动人工智能（AI）工具应用、提升部门效能这一目标的重要组成部分。CAT工具能够对公众咨询反馈进行主题分析，通过大语言模型将市民提交的自由文本内容归类至相应主题。

报告作者指出，尽管利用大语言模型开展主题分析相对容易，但"设计出符合人类偏好、具备适当人工监督机制并拥有完善性能评估框架的系统，则要复杂得多"。

团队重点关注的问题之一是人口统计偏见。报告指出，尽管CAT在大语言模型的提示词中并未明确使用任何人口统计变量，但"大语言模型在处理英语表达不规范或含有社会文化特定用语（如冗长表述或俚语）的回复时，表现可能会有所下降"。

鉴于参与公众咨询的市民均为自愿参与，报告作者表示："我们认为，将有限的人力资源集中用于确保主题生成环节的准确性与质量，尤为重要。"

报告作者还表示，引入"人在回路"机制能够及时发现AI可能出现的错误或误判，同时确保人类判断在理解公众意见方面始终处于核心地位。他们补充道："我们的方案将人工监督正式纳入主题审核环节，以及分析和报告撰写阶段。在这些阶段，用户会对CAT生成的分析结果进行核查，并筛选具有代表性的引用内容。"

CAT采用大语言模型流水线，将公众咨询中每一条个人回复与经人工验证的主题进行对应匹配。匹配过程采用"多数投票"机制——多个大语言模型分别对某条咨询回复进行主题分类，只有当多数模型达成一致时，该主题才会被正式归类到该条回复。这一机制通常被称为"大语言模型即裁判"（LLM-as-a-judge）。报告作者认为，该技术能够在回复与主题之间建立全面的映射关系。

报告同时指出，CAT在将主题与特定人口群体的回复进行匹配时，准确率系统性地偏低。但报告也强调，CAT的设计包含多项降低偏见的保障措施，包括在提示词中排除人口统计变量，以及对所有CAT生成主题实施人工审核。

报告作者表示："在人工审核的支持下，从数据集中提取所有'真实'核心主题的概率趋近于100%，而这正是CAT在实际应用中的工作方式。"

CAT基于谷歌的Vertex AI平台构建，并使用Gemini模型。据交通部介绍，该工具能够在数小时内完成公众反馈的主题识别与分类，而此前同样的工作往往需要数月时间。目前，CAT已被用于支持"综合国家交通战略"公众回复的分析工作，并协助改进驾驶考试预约规则。

Q&A

Q1：CAT咨询分析工具是什么？它有什么用途？

A：CAT（咨询分析工具）是英国交通部联合谷歌云和艾伦·图灵研究所共同开发的AI系统，基于谷歌Vertex AI平台和Gemini模型构建。它的主要用途是通过大语言模型对公众咨询中的自由文本反馈进行主题分析，能够在数小时内完成过去需要数月才能完成的主题识别与分类工作，已应用于综合国家交通战略分析及驾驶考试预约规则改进等项目。

Q2：CAT工具如何防止AI分析产生人口统计偏见？

A：CAT采取了多项措施来降低偏见风险：首先，在大语言模型的提示词中不引入任何人口统计变量；其次，引入"人在回路"机制，对所有CAT生成的主题进行人工审核，确保AI的错误或误判能被及时发现；此外，在分析和报告撰写阶段，用户也会对CAT生成的结果进行核查并筛选代表性引用，从而使核心主题的提取准确率趋近100%。

Q3：CAT使用的"多数投票"机制是怎么运作的？

A：CAT采用"多数投票"系统进行主题映射，即让多个大语言模型分别对同一条公众咨询回复进行主题分类，只有当多数模型对某一主题达成一致时，该主题才会被正式归类到对应的回复。这种机制也被称为"大语言模型即裁判"（LLM-as-a-judge），能够在回复与主题之间建立更全面、更可靠的映射关系。

来源：Computer Weekly

0赞

好文章，需要你的鼓励

英国交通部AI咨询分析工具如何规避偏见问题

来源：Computer Weekly

2026

04/15

11:05

分享

点赞

从"存数据"到"用数据"：天谋科技时序数据库通过安全可靠测评，时序大模型服务平台开放体验

iOS 27 即将发布，这五大新功能最令人期待

华硕发布 ROG Ally X20 掌机：透明外壳搭配 120Hz OLED 屏幕

晶方科技向马来西亚 WaferTek 再投 3000 万美元，传感器先进封装进入产线建设

Electrify America调整电动车充电付款方式，简化用户支付流程

加州长滩市引入离网太阳能储能电动车充电桩

比亚迪铸铝车架：比钢铁更轻、更坚固、更安全

2027款道奇Charger电动版开启预订，配备NACS充电口，售价不菲

微软Project Solara：专为智能体而生的Android操作系统

数据安全公司Cyera寻求120亿美元估值，ARR倍数高达80倍

EcoFlow飓风季特卖：2048Wh DELTA 2 Max储能电站降至899美元，EGO 3200 PSI压力清洗机699美元创历史低价

NVIDIA NemoClaw助力工业软件巨头打造安全自主的AI工程师

AI让老板们欢欣鼓舞，却让员工深陷"垃圾工作"泥潭

AWS与约翰斯·霍普金斯大学联合发布AI抗体设计基准数据库

Anything应用两度遭苹果下架后的重建之路

OpenAI一个月内完成第二笔收购，目标锁定个人理财初创公司Hiro

AI虚拟网红悄然"占领"科切拉音乐节

TIA推出AI数据中心新标准，超越传统电信领域

OpenAI与诺和诺德达成合作，携手加速药物研发与配送

HubSpot推出AI智能体与新工具，应对买家行为变革

日产振兴计划押注"AI定义汽车"，削减车型聚焦自动驾驶

AI公司既是强大技术的缔造者，也是出色的营销高手

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: