1927年,美国心理学家L. L. Thurstone在其论文《比较判断法则》中提出:当人们在多个选项中做出选择时,他们实际上是在选择对自己价值最高的那个选项,尽管无法为这种选择赋予一个具体的数字。
Thurstone是"心理测量学"领域的先驱。这一学科建立在这样的前提之上:虽然我们无法直接观察心理过程,但它们仍然可以被测量和量化。他于1927年发表的论文为如今被称为随机效用模型(Random Utility Models,RUMs)的研究奠定了基础。这类模型提供了一套描述人类偏好的数学框架,并可据此对各类假设情境做出预测。
随机效用模型之所以得名于此,是因为它们评估的是从特定选择中所能获得的"效用"或收益——例如,在你从图书馆借回的一堆小说中,决定先读哪一本。麻省理工学院电气工程与计算机科学系助理教授、信息与决策系统实验室(LIDS)主要研究员Gabriele Farina解释道:"这些模型本质上是随机的,因为每个人都不一样。每个人都有自己的偏好,而这些偏好本身也会随时间变化。"例如,一个平时早晨喜欢喝咖啡、饭后喜欢喝茶的人,偶尔也可能完全颠倒这个顺序。
随机效用模型在政府和产业界的应用远不止于选择饮料这类小事。它们被广泛用于预测人们在各种反事实("假如")情境下的行为选择:如果某条主干道因施工封闭,人们会如何通勤?他们会选择哪些路线和出行方式?又或者,如果某个城市突然获得2000万美元的意外资金,应该如何分配才能最大化公共利益?
随机效用模型已经发展了近百年,其复杂程度也与日俱增,人们或许以为这一领域已没有多少改进空间。然而,事实并非如此。
今年4月,在巴西里约热内卢举办的国际学习表征会议(ICLR)上,一篇论文揭示了若干基本事实,表明这些模型所能提供的信息远超人们以往的认知。该论文的作者包括:新加坡南洋理工大学的Yeshwanth Cherapanamjeri(前麻省理工学院博士后)、同时担任麻省理工学院运筹学中心核心教员的Farina、麻省理工学院Avanessians计算机科学讲席教授及计算机科学与人工智能实验室成员Constantinos Daskalakis,以及麻省理工学院计算机科学博士生、LIDS与EECS成员Sobhan Mohammadpour。
这一研究成果部分源于随机效用模型在实际估算中长期存在的一个缺陷——这一问题自Thurstone时代便已存在。用于估算模型的数据主要来自所谓的"两两比较":在A和B之间做选择——无论是Netflix上的电影、亚马逊上的竞争产品,还是谷歌上的新闻资讯——你会选哪个?Daskalakis解释说,这种方法之所以如此普遍,原因之一在于:"为某个单一选项的价值打出精确的数字分数,比如4.37分,是非常困难的。而比较两样东西、判断哪个更好,在认知上要容易得多。"但他随即指出,问题也恰恰在这里。"这种每次只看两个选项的偏好评估方式,根本无法发现众多选择之间的关联性。"
随机效用模型的标准应用方式假设A和B所带来的效用是相互独立的,但实际上两者可能存在关联,而了解这种关联至关重要。例如,如果一位竞选者发现某位潜在选民支持枪支管控,那么这位选民同样支持政府主导的儿童托育政策的可能性也相当高。类似地,独立电影爱好者可能同样喜欢外语片,但对好莱坞动作大片却兴趣索然。Daskalakis指出:"如果某个数字平台对这类关联性视而不见,就无法准确估计用户偏好。如果Netflix经常向你推送一堆你毫无兴趣的电影,你可能就会选择退出并取消订阅。"
麻省理工学院研究团队证明,仅凭两两比较无法获取关于偏好关联性的信息。然而,当大量用户对三个备选项按照偏好进行排序时,这种关联性便能够被识别出来。此外,通过结合"三选一最优"与"两选一最优"的方式,同样可以获得这类信息。Mohammadpour解释道,在实际操作中,"你可以让一组用户对三个选项进行排序,然后利用我们开发的方法将这些个人结果整合成一个完整的大模型,从而呈现整体图景。"
Farina表示,该研究团队专注于随机效用模型的计算层面,致力于设计能够提取偏好信息的算法,并研究完成这一任务所需的数据量,或者说需要运行多少次实验。他表示,好消息是,高效算法确实是可行的。所需实验次数并不会随着目录或数据库中选项数量的增加而呈指数级增长。
蒙特利尔大学计算机科学家Emma Frejinger评价道:"这篇论文提供了一个关键性的突破。它从数学上证明了传统数据收集方式为何存在局限,并表明仅需让用户进行三选一排序,就能解锁准确训练这些强大模型的能力。这一发现为收集更高质量的数据、驱动更精准的优化提供了极具实践意义的路线图。"
Daskalakis坚持认为:"效用模型的构建将持续成为一个非常活跃的研究领域。就像随机效用模型自1990年代末以来对互联网经济至关重要一样,它们对于未来大语言模型的对齐同样至关重要,且将持续发挥这一作用。"他进一步补充道,更重要的是,"随机效用模型在大语言模型的商业可行性和实用价值中扮演着核心角色。"在训练阶段,人们通常被要求对大语言模型生成的多个候选输出进行排序,模型由此可以更好地把握用户在语气、风格和内容方面的偏好。
Daskalakis表示,鉴于我们在众多领域中"不断被海量选项所淹没","根本不可能要求人们就所有可能的场景传达其全部个人偏好。因此,可行的替代方案是构建一个能够预测人们对不同可能结果看法的模型,并在迭代过程中不断改进和更新,最终希望能够做出准确的预测。"
Q&A
Q1:什么是随机效用模型?它有哪些应用场景?
A:随机效用模型(RUMs)是一种描述人类偏好的数学框架,用于评估从特定选择中获得的"效用"或收益。它广泛应用于政府和产业界,例如预测道路封闭后人们的通勤方式、城市资金的最优分配方式,以及Netflix、亚马逊等数字平台的内容推荐等场景。
Q2:为什么传统的两两比较方式在随机效用模型中存在局限?
A:传统两两比较方式虽然在认知上更容易操作,但它假设两个选项的效用相互独立,因此无法揭示多个选项之间潜在的偏好关联。麻省理工学院研究团队从数学上证明,仅凭两两比较根本无法获取偏好关联信息,这会导致模型预测精度不足,例如平台向用户推送其不感兴趣的内容。
Q3:随机效用模型与大语言模型的训练有什么关系?
A:随机效用模型在大语言模型的训练与对齐过程中发挥着核心作用。在训练阶段,人们通常被要求对大语言模型生成的多个候选输出进行排序,模型据此学习用户在语气、风格和内容方面的偏好。研究人员认为,改进后的随机效用模型将持续提升大语言模型的商业可行性和实用价值。
好文章,需要你的鼓励
欧洲量子计算初创公司Alice & Bob正式推出其首款完整量子硬件平台——Helium量子系统,标志着该公司从量子芯片制造商升级为完整系统开发商。该系统基于独特的"猫量子比特"架构,仅需18个猫量子比特即可实现首个逻辑量子比特的编码,并集成了处理器架构、控制电子设备及监控软件Starboard。系统功耗仅40千瓦,支持量子与经典计算资源的协同部署,面向高性能计算场景开放研究合作。
韩国科学技术院团队构建的SoCRATES框架,系统评估AI调解员在八类冲突场景和五种社会认知维度下的表现,发现即使最强模型也仅能弥合约三分之一的分歧。
Intuit首席AI官Ashok Srivastava对外界盛传的"AI颠覆SaaS"论调保持冷静,认为SaaS行业的演变本是持续循环的一部分。他表示,公司通过引入AI智能体,过去一年开发速度提升40%,五年内开发效率提升12倍。QuickBooks Live订阅量因AI加入翻倍增长,QuickBooks Capital平台同比增长73%。Srivastava同时强调,Intuit拒绝"Token最大化"策略,坚持以服务客户为核心,在合规监管环境下稳步推进AI落地。
中山大学与Datawhale研究团队发现,在扩散模型训练中,让AI用自身输出的结构熵自动调节学习权重,可令音乐生成模型产生更清晰的段落结构和音色分化。