当被要求在1到50之间猜一个数字时,OpenAI的ChatGPT、Anthropic的Claude Sonnet 4、谷歌的Gemini 2.5 Flash和Meta的Llama 4都给出了相同的答案:27。
那些喜欢寻找阴谋论的人可能会认为这其中有什么秘密,但实际情况并非如此。这里没有任何串通,只是共同的训练数据捕获了偏见,以及预测字符序列中下一个词(或标记)的通用方法。
缺乏随机性本身就是偏见的定义。这提醒我们,大型语言模型(LLM)无法独立做出无偏见的决策。
这些AI模型并不总是意见一致。有时它们会回答42或37,正如其他用户和AI模型使用者所报告的现象。
但是,在默认模型设置下,27似乎是主流商业模型在1到50数字范围内最常见的回答。
这一现象最初被Capco公司的数据科学家兼高级顾问Mohd Faraaz注意到。他最近要求各种AI模型"在1到50之间猜一个数字",在测试的七个模型中,有六个都回答了27。只有Grok回答了42——这个数字因道格拉斯·亚当斯的《银河系漫游指南》中作为"生命意义的答案"而广为人知。
当被要求解释时,Claude给出了类似这样的回答:
"我选择27有些随意,但说实话,它感觉像一个不太明显的'中等偏上'的选择。像25(正好一半)或1和50(极端值)这样的数字似乎太可预测了。27接近中间但有点不对称——它不是完全居中的,这在某种程度上让猜测感觉更自然。
此外,人们在想'随机'数字时通常避免整数,所以我避开了5或10的倍数。我的猜测接近你想的数字吗?"
伊利诺伊大学香槟分校助理教授Daniel Kang在回应关于LLM可预测性的询问时告诉记者:"训练数据极大地影响了模型的行为。影响模型输出的其他因素包括RLHF(人类反馈强化学习)程序和采样机制。特别是RLHF被怀疑会导致'模式坍塌',可能与这种现象直接相关。"
真正的随机性很难实现
那些对这种行为感到惊讶的人可能期望LLM能够"猜测"一个随机数字,并在这些猜测中表现出一些变化。但有效的随机数生成需要具有熵源访问权限的硬件或软件——随机数生成器或伪随机数生成器。
具有执行JavaScript代码能力的AI模型(如Math.floor(Math.random() * 50) + 1;)可以返回伪随机数。但仅凭自身,模型很可能更加可预测。
马德里Telefónica Tech的数据科学家Javier Coronado-Blázquez最近探索了LLM如何处理随机数。在题为《确定性还是概率性?LLM作为随机数生成器的心理学》的预印本论文中,他发现LLM倾向于偏爱某些答案。
"我们的结果表明,尽管这些模型具有随机的基于变压器的架构,但在被提示生成随机数值输出时,它们经常表现出确定性响应,"他在论文中说道。
Coronado-Blázquez测试了三个不同的随机数范围(1-5、1-10和1-100)、六个模型(DeepSeek-R1-14b、Gemini 2.0、GPT-4o-mini、Llama 3.1-8b、Mistral-7b和Phi4-14b)、七种不同语言(中文、英语、法语、印地语、日语、俄语和西班牙语)以及六个温度设置(0.1、0.3、0.5、0.8、1.0、2.0)——温度是影响模型输出可预测性的设置。
基于75600次调用的结果显示,大多数模型在大多数情况下都高度可预测且变化有限。例如,当被要求在1到10之间选择时,GPT-4o-mini、Phi-4和Gemini 2.0约80%的时间选择了7。还存在基于语言的变化:在1-5之间选择时,西班牙语的Gemini倾向于回答3,但在英语中偏好4,Coronado-Blázquez推测这可能是由于使用了不同的模型。
LLM最受欢迎的选择是:1-5范围内的3和4;1-10范围内的5和7;1-100范围内的37、47和73。除了4之外,其他都是质数。
"大型模型,如GPT和Gemini通常被认为更具想象力和创造性;然而,我们发现这些模型与较小的竞争对手一样确定性和有偏见,甚至更甚,"Coronado-Blázquez在论文中总结道。
这些结果在其他关于AI偏见的研究中得到了呼应,比如2024年探索GPT-4和Llama 3如何无法生成公平抛硬币结果的研究。
康奈尔大学计算机科学家Katherine Van Koevering和Jon Kleinberg在他们的论文《随机有多随机?评估LLM抛硬币的随机性和人性》中写道:"我们认为,机器不仅学会了人类在处理随机性时的偏见,而且在很多方面都加剧了这种偏见,使其比人类更严重。"
"这种在产生随机性方面的根本失败是LLM的类人特征,但它也限制了它们在人类需要随机性帮助的任务中的能力(毕竟,我们已经非常擅长无法随机行为)。"
好文章,需要你的鼓励
加利福尼亚大学和萨里大学研究团队开发了一种创新的AI系统,能够仅通过简单的手绘素描就在复杂照片中精确识别关键点。这项技术突破了传统机器学习需要大量同类数据的限制,实现了真正的跨模态学习。系统在动物关键点识别任务中达到了39%的准确率,超越现有方法约5个百分点,并且在真实手绘素描测试中表现稳定。该技术有望在生物学研究、医疗诊断、工业检测等多个领域找到广泛应用。
AI系统正变得越来越善于识别用户偏好和习惯,像贴心服务员一样定制回应以取悦、说服或保持用户注意力。然而这种看似无害的个性化调整正在悄然改变现实:每个人接收到的现实版本变得越来越独特化。这种认知漂移使人们逐渐偏离共同的知识基础,走向各自的现实世界。AI个性化不仅服务于我们的需求,更开始重塑这些需求,威胁社会凝聚力和稳定性。当真相本身开始适应观察者时,它变得脆弱且易变。
约翰霍普金斯大学发布DOTRESIZE技术,通过最优传输理论实现AI大模型智能压缩。该方法将相似神经元合并而非删除,在保持性能的同时显著降低计算成本。实验显示,压缩20%后模型仍保持98%性能,为AI技术普及和可持续发展提供新路径。