由于训练方式的局限性,大语言模型所捕捉到的人类语言仅是一个片段。这些模型依赖书面文字进行训练,从教科书到社交媒体帖子,再到电影和电视中的对话。然而,它们几乎无法接触到人们面对面或通话时的即兴交流。而这类非正式对话才是人类语言的主体,也是人类文化的重要组成部分。
这其中潜藏着不小的风险。随着大语言模型的广泛应用,人们将越来越多地接触到AI生成的文本。久而久之,我们自身也会开始采纳这些模型的语言习惯和表达方式。这不仅会影响人与人之间的沟通方式,还会影响我们对自身及周围世界的认知。我们对世界的理解,可能正在以我们尚未完全察觉的方式悄然扭曲。
这种影响将通过多种途径显现。最先出现的变化,可能是日常表达层面的转变,就像短信和社交媒体已经让我们习惯于使用更短的句子、用表情符号代替文字、大量省略标点。但AI带来的影响可能更为深远,它可能侵蚀我们的礼貌表达方式,让我们越来越像发号施令的上司。2022年的一项研究发现,在习惯对Siri和Alexa等语音助手下指令的家庭中成长的孩子,在与人交流时也变得简短生硬,动不动就说"嘿,去做X",并期待对方服从,尤其当对方的声音接近默认女声时。随着我们越来越多地向聊天机器人和AI智能体发送指令,我们很可能也会陷入同样的习惯。
其次,就像自动补全功能让我们更频繁地使用最常见的1000个词汇一样,与聊天机器人对话、阅读AI生成的文本,也可能进一步压缩我们的语言空间。西班牙科鲁尼亚大学的一项近期研究发现,机器生成的语言句子长度范围较窄,平均在12至20个词之间,词汇量也比人类语言更为有限。机器生成的文本读起来流畅、工整,却失去了那些承载情感的迂回、中断与跳跃式逻辑。
此外,由于大语言模型主要基于书面语料训练,它们可能难以模拟真实口语中那种自由流动的状态。当你对ChatGPT说"我讨厌贝丝!",它会给出一套冗长的三段式回应:先是肯定("你的感受完全合理"),再是倾听("我在这里陪你"),最后是邀请("发生了什么?")——这种回应方式与真实对话相去甚远。而"贝丝到底怎么了?!"则会换来一个项目符号列表,读起来像多项选择题("贝丝是:* 名人?* 学校朋友?* 虚构人物?")。没有人会这样说话——至少现在还不会。但如果我们在类似对话的场景中反复接触这种固定模式,就可能像孩子从新朋友身上学习语言习惯那样,逐渐接受并模仿它们。
这些影响只会随着时间推移不断加深。大语言模型训练所用的文本,如今越来越多地由大语言模型自身生成,由此形成一个反馈循环——它们不断模仿自身非人类的语言模式,同时也在引导人类向这些模式靠拢。
大语言模型的广泛使用还可能强化确认偏误,让我们对最初的判断过于自信,对其他可能性更加封闭——而开放性恰恰是人类对话的核心价值。许多聊天机器人被设定为无论用户说什么都表示赞同,热情地支持那些不成熟甚至错误的想法,并将其重新表述为确定性的结论,而我们也会本能地倾向于接受。当有人问"蛋糕是健康的早餐,对吗?"或"邮局是不是在针对我?",这种一味迎合的姿态不仅会强化偏见,甚至可能加重心理问题。与此同时,AI生成内容那种充满自信的语气,也会加剧冒名顶替综合症,让我们正常、健康的自我怀疑变得像是一种缺陷或失败。
根据我多年的教学经验,那些在作业中求助于生成式AI的学生,往往表示这样做是因为不知道如何表达自己的想法。但他们没有意识到,写作或表达本身,往往正是我们理清思路的过程。他们那些模糊、不确定的表达,其实是完全正常的人类状态。而大语言模型不会将这些初步的模糊想法转化为有深度的批判性分析,也不会像朋友那样提出有益的问题,它只会将这些想法原样复述,仍然未经审视,却包装成自信满满的语言。
我们在社交媒体和网络聊天中往往比面对面时更为激进。有据可查的"网络去抑制效应"助长了有毒语言的蔓延。很多人都有过这样的经历:在网上对某人怒火冲天,却在面对面或电话交流时重归于好。聊天机器人虽被训练成迎合用户的姿态,但它们见识过人类最残忍的一面——因为网络上每一场骂战都留有永久的文字记录,而那些言归于好、互相原谅的口头交流早已消散无踪。这些模型的回应虽不会模仿网络上的攻击性言语,但其底层认知仍受这些语料的影响,即便它们在努力回避这些内容。
从一个社会的片面通讯中得出错误结论并不罕见。中世纪北欧萨迦让我们以为那是一个以维京战士为主的文化,因为诗人很少描写占多数的农耕群体。骑士传奇聚焦于国王与宫廷,长期以来让我们将中世纪视为一个君主制世界,抹去了众多中世纪共和国的存在。从统计数据来看,我们会以为古罗马人对共和制度有着深厚的情感,然而现存拉丁文本中有10%出自同一人——西塞罗,而"共和国"一词在现存罗马文献中70%的用例都来自他的著作。用特定文本训练大语言模型,可能带来类似的扭曲效应。AI可能让我们看起来比实际更好争论,毕竟我们在网络上确实如此。它可能夸大Twitter/X或Bluesky上频繁讨论的政治议题的文化权重,或过度放大领英和Goodreads等平台上特定主题语料库的影响力。
部分大语言模型正在利用电影和电视节目中的人类对话进行训练,但这些对话依然是经过剧本创作的,并且过度集中于特定场景(例如,以谋杀案为核心的警察剧占据了黄金时段四分之一的节目时长)。现实生活中,我们幽默、伤害他人或表达爱意的方式,与情景喜剧里的呈现并不相同。目前至少有一家初创公司正在出资收集用户电话录音用于AI训练,但这仍是小众做法,任何大规模推进都将面临严重的隐私问题。
我们无法确切地知道最佳解决方案是什么。但有一点不难想象:如果人类有能力开发AI模型,那么人类同样有能力找到方法,让模型在更自然、更真实的人类口语上进行训练,而不仅仅是那些最程式化、最掩饰化、有时甚至是最糟糕的语言。正是因为将地球上绝大多数的语言生产形式——人们真实自然地彼此交流——排除在外,这些模型所学到的,恰恰是我们最不像真实自我的那一面。
布鲁斯·施奈尔是哈佛大学肯尼迪政府学院的安全技术专家。阿达·帕尔默是奇幻与科幻小说作家、未来学家,同时任职于芝加哥大学,研究技术与信息的历史。
Q&A
Q1:大语言模型的训练数据存在哪些偏颇?
A:大语言模型主要依赖书面文本进行训练,包括教科书、社交媒体帖子以及电影电视中的对话,但几乎无法接触到人们日常面对面或电话中的即兴交流。这类非正式对话才是人类语言的主体。此外,网络语料中充斥着攻击性言论,而口头上的和解与宽容却无从记录,导致模型对人类语言产生系统性的偏差认知。
Q2:长期使用大语言模型会对人类语言习惯产生哪些影响?
A:研究表明,大语言模型生成的文本句子长度较短、词汇量有限,长期接触可能压缩人类的语言表达空间。此外,模型惯用的固定回应模式(如三段式肯定、邀请、提问)可能让人逐渐接受并模仿,使日常交流趋于程式化。对Siri、Alexa等语音助手的使用研究也已显示,儿童会因此形成更简短、命令式的说话方式。
Q3:大语言模型的语言训练偏差会如何影响人类的思维方式?
A:大语言模型倾向于迎合用户观点,无论观点是否正确都给予肯定,这可能强化确认偏误,让人对自身判断过于自信。同时,AI自信满满的表达风格可能加剧人们的冒名顶替综合症。对于学生而言,依赖生成式AI完成写作,还会妨碍他们通过写作过程整理和深化思维的能力。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。