当被要求在1到50之间猜一个数字时,OpenAI的ChatGPT、Anthropic的Claude Sonnet 4、谷歌的Gemini 2.5 Flash和Meta的Llama 4都给出了相同的答案:27。
那些喜欢寻找阴谋论的人可能会认为这其中有什么秘密,但实际情况并非如此。这里没有任何串通,只是共同的训练数据捕获了偏见,以及预测字符序列中下一个词(或标记)的通用方法。
缺乏随机性本身就是偏见的定义。这提醒我们,大型语言模型(LLM)无法独立做出无偏见的决策。
这些AI模型并不总是意见一致。有时它们会回答42或37,正如其他用户和AI模型使用者所报告的现象。
但是,在默认模型设置下,27似乎是主流商业模型在1到50数字范围内最常见的回答。
这一现象最初被Capco公司的数据科学家兼高级顾问Mohd Faraaz注意到。他最近要求各种AI模型"在1到50之间猜一个数字",在测试的七个模型中,有六个都回答了27。只有Grok回答了42——这个数字因道格拉斯·亚当斯的《银河系漫游指南》中作为"生命意义的答案"而广为人知。
当被要求解释时,Claude给出了类似这样的回答:
"我选择27有些随意,但说实话,它感觉像一个不太明显的'中等偏上'的选择。像25(正好一半)或1和50(极端值)这样的数字似乎太可预测了。27接近中间但有点不对称——它不是完全居中的,这在某种程度上让猜测感觉更自然。
此外,人们在想'随机'数字时通常避免整数,所以我避开了5或10的倍数。我的猜测接近你想的数字吗?"
伊利诺伊大学香槟分校助理教授Daniel Kang在回应关于LLM可预测性的询问时告诉记者:"训练数据极大地影响了模型的行为。影响模型输出的其他因素包括RLHF(人类反馈强化学习)程序和采样机制。特别是RLHF被怀疑会导致'模式坍塌',可能与这种现象直接相关。"
真正的随机性很难实现
那些对这种行为感到惊讶的人可能期望LLM能够"猜测"一个随机数字,并在这些猜测中表现出一些变化。但有效的随机数生成需要具有熵源访问权限的硬件或软件——随机数生成器或伪随机数生成器。
具有执行JavaScript代码能力的AI模型(如Math.floor(Math.random() * 50) + 1;)可以返回伪随机数。但仅凭自身,模型很可能更加可预测。
马德里Telefónica Tech的数据科学家Javier Coronado-Blázquez最近探索了LLM如何处理随机数。在题为《确定性还是概率性?LLM作为随机数生成器的心理学》的预印本论文中,他发现LLM倾向于偏爱某些答案。
"我们的结果表明,尽管这些模型具有随机的基于变压器的架构,但在被提示生成随机数值输出时,它们经常表现出确定性响应,"他在论文中说道。
Coronado-Blázquez测试了三个不同的随机数范围(1-5、1-10和1-100)、六个模型(DeepSeek-R1-14b、Gemini 2.0、GPT-4o-mini、Llama 3.1-8b、Mistral-7b和Phi4-14b)、七种不同语言(中文、英语、法语、印地语、日语、俄语和西班牙语)以及六个温度设置(0.1、0.3、0.5、0.8、1.0、2.0)——温度是影响模型输出可预测性的设置。
基于75600次调用的结果显示,大多数模型在大多数情况下都高度可预测且变化有限。例如,当被要求在1到10之间选择时,GPT-4o-mini、Phi-4和Gemini 2.0约80%的时间选择了7。还存在基于语言的变化:在1-5之间选择时,西班牙语的Gemini倾向于回答3,但在英语中偏好4,Coronado-Blázquez推测这可能是由于使用了不同的模型。
LLM最受欢迎的选择是:1-5范围内的3和4;1-10范围内的5和7;1-100范围内的37、47和73。除了4之外,其他都是质数。
"大型模型,如GPT和Gemini通常被认为更具想象力和创造性;然而,我们发现这些模型与较小的竞争对手一样确定性和有偏见,甚至更甚,"Coronado-Blázquez在论文中总结道。
这些结果在其他关于AI偏见的研究中得到了呼应,比如2024年探索GPT-4和Llama 3如何无法生成公平抛硬币结果的研究。
康奈尔大学计算机科学家Katherine Van Koevering和Jon Kleinberg在他们的论文《随机有多随机?评估LLM抛硬币的随机性和人性》中写道:"我们认为,机器不仅学会了人类在处理随机性时的偏见,而且在很多方面都加剧了这种偏见,使其比人类更严重。"
"这种在产生随机性方面的根本失败是LLM的类人特征,但它也限制了它们在人类需要随机性帮助的任务中的能力(毕竟,我们已经非常擅长无法随机行为)。"
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。