英国交通部AI咨询分析工具如何规避偏见问题

英国交通部联合谷歌云与艾伦·图灵研究所,基于Google Vertex AI平台及Gemini模型,开发了咨询分析工具(CAT),用于分析公众咨询反馈。该工具利用大语言模型对公民提交的自由文本进行主题分类,将原本耗时数月的分析工作压缩至数小时。为规避人口统计偏见,CAT采用多模型多数投票机制,并在主题审核及报告撰写阶段引入人工监督,确保分析准确性趋近100%。

英国交通部(DfT)与谷歌云及艾伦·图灵研究所合作,共同开发了一款名为"咨询分析工具"(CAT)的系统,专门用于分析公众在政府咨询活动中提交的反馈意见。

艾伦·图灵研究所于2025年12月发布的一份报告指出,该项目是交通部推动人工智能(AI)工具应用、提升部门效能这一目标的重要组成部分。CAT工具能够对公众咨询反馈进行主题分析,通过大语言模型将市民提交的自由文本内容归类至相应主题。

报告作者指出,尽管利用大语言模型开展主题分析相对容易,但"设计出符合人类偏好、具备适当人工监督机制并拥有完善性能评估框架的系统,则要复杂得多"。

团队重点关注的问题之一是人口统计偏见。报告指出,尽管CAT在大语言模型的提示词中并未明确使用任何人口统计变量,但"大语言模型在处理英语表达不规范或含有社会文化特定用语(如冗长表述或俚语)的回复时,表现可能会有所下降"。

鉴于参与公众咨询的市民均为自愿参与,报告作者表示:"我们认为,将有限的人力资源集中用于确保主题生成环节的准确性与质量,尤为重要。"

报告作者还表示,引入"人在回路"机制能够及时发现AI可能出现的错误或误判,同时确保人类判断在理解公众意见方面始终处于核心地位。他们补充道:"我们的方案将人工监督正式纳入主题审核环节,以及分析和报告撰写阶段。在这些阶段,用户会对CAT生成的分析结果进行核查,并筛选具有代表性的引用内容。"

CAT采用大语言模型流水线,将公众咨询中每一条个人回复与经人工验证的主题进行对应匹配。匹配过程采用"多数投票"机制——多个大语言模型分别对某条咨询回复进行主题分类,只有当多数模型达成一致时,该主题才会被正式归类到该条回复。这一机制通常被称为"大语言模型即裁判"(LLM-as-a-judge)。报告作者认为,该技术能够在回复与主题之间建立全面的映射关系。

报告同时指出,CAT在将主题与特定人口群体的回复进行匹配时,准确率系统性地偏低。但报告也强调,CAT的设计包含多项降低偏见的保障措施,包括在提示词中排除人口统计变量,以及对所有CAT生成主题实施人工审核。

报告作者表示:"在人工审核的支持下,从数据集中提取所有'真实'核心主题的概率趋近于100%,而这正是CAT在实际应用中的工作方式。"

CAT基于谷歌的Vertex AI平台构建,并使用Gemini模型。据交通部介绍,该工具能够在数小时内完成公众反馈的主题识别与分类,而此前同样的工作往往需要数月时间。目前,CAT已被用于支持"综合国家交通战略"公众回复的分析工作,并协助改进驾驶考试预约规则。

Q&A

Q1:CAT咨询分析工具是什么?它有什么用途?

A:CAT(咨询分析工具)是英国交通部联合谷歌云和艾伦·图灵研究所共同开发的AI系统,基于谷歌Vertex AI平台和Gemini模型构建。它的主要用途是通过大语言模型对公众咨询中的自由文本反馈进行主题分析,能够在数小时内完成过去需要数月才能完成的主题识别与分类工作,已应用于综合国家交通战略分析及驾驶考试预约规则改进等项目。

Q2:CAT工具如何防止AI分析产生人口统计偏见?

A:CAT采取了多项措施来降低偏见风险:首先,在大语言模型的提示词中不引入任何人口统计变量;其次,引入"人在回路"机制,对所有CAT生成的主题进行人工审核,确保AI的错误或误判能被及时发现;此外,在分析和报告撰写阶段,用户也会对CAT生成的结果进行核查并筛选代表性引用,从而使核心主题的提取准确率趋近100%。

Q3:CAT使用的"多数投票"机制是怎么运作的?

A:CAT采用"多数投票"系统进行主题映射,即让多个大语言模型分别对同一条公众咨询回复进行主题分类,只有当多数模型对某一主题达成一致时,该主题才会被正式归类到对应的回复。这种机制也被称为"大语言模型即裁判"(LLM-as-a-judge),能够在回复与主题之间建立更全面、更可靠的映射关系。

来源:Computer Weekly

0赞

好文章,需要你的鼓励

2026

04/15

11:05

分享

点赞

邮件订阅