经过2023年和2024年两年的巨大炒作之后,2025年感觉更像是基于大语言模型的Token预测行业的一个适应期。在公众对AI模型作为人类文明未来威胁或未来神灵萌芽进行了两年多的担忧之后,炒作似乎正在让位于实用主义:今天的AI可能非常有用,但也明显不完美且容易出错。
当然,这种观点并不普遍。有大量资金(和言论)押注AI的平流层式、震撼世界的发展轨迹。但"何时"不断被推迟,这是因为几乎所有人都认为需要更重大的技术突破。关于我们即将迎来通用人工智能(AGI)或超级智能(ASI)的最初宏大声明并没有消失。尽管如此,人们越来越意识到,这些宣言也许最好被视为风险投资营销。在那里的每一个商业基础模型构建者都必须面对现实,如果他们要现在赚钱,就必须销售可靠工具形式的实用AI解决方案。
这使得2025年成为充满巨大反差的一年。例如,1月份,OpenAI的CEO萨姆·阿尔特曼声称公司知道如何构建AGI,但到11月,他公开庆祝GPT-5.1终于学会了在指导下正确使用破折号(但并非总是如此)。英伟达市值飙升至5万亿美元,华尔街仍在为该公司股票投射高目标价格,而一些银行警告可能出现堪比2000年代互联网泡沫破裂的AI泡沫。
虽然科技巨头计划建设据说需要多个核反应堆功率或与美国一个州人口用电量相当的数据中心,研究人员继续记录行业最先进的"推理"系统在营销之下实际在做什么(而这并不是AGI)。
随着如此多的叙述朝着相反方向发展,很难知道应该多认真地对待这一切,以及如何为工作场所、学校和生活其他方面的AI做准备。像往常一样,最明智的路线介于AI仇恨和AI崇拜的极端之间。温和立场在网上并不受欢迎,因为它们不能推动社交媒体平台上的用户参与度。但AI中的事情可能既不像极化极端所暗示的那样糟糕(每个提示都燃烧森林),也不像那样好(快速起飞的超级智能)。
以下是对今年AI事件的简要回顾和对2026年的一些预测。
DeepSeek震惊美国AI行业
1月份,中国AI初创公司DeepSeek在MIT开源许可下发布了其R1模拟推理模型,美国AI行业集体失去理智。据报道,DeepSeek声称该模型在数学和编程基准测试中与OpenAI的o1相匹配,使用受美国出口管制限制的较老英伟达H800芯片,训练成本仅为560万美元。
几天内,DeepSeek的应用程序在iPhone应用商店超越ChatGPT登顶,英伟达股价暴跌17%,风险投资家马克·安德森称其为"我见过的最令人惊叹和印象深刻的突破之一"。Meta的扬·勒昆提供了不同的观点,认为真正的教训不是中国超越了美国,而是开源模型正在超越专有模型。
后续几周的余波中,美国AI公司争相做出回应。OpenAI在1月底发布了o3-mini,这是其首个面向免费用户的模拟推理模型,而微软开始在其Azure云服务上托管DeepSeek R1,尽管OpenAI指控DeepSeek使用ChatGPT输出来训练其模型,违反了OpenAI的服务条款。
在Ars Technica的凯尔·奥兰德进行的正面测试中,R1在日常任务上被证明与OpenAI的付费模型具有竞争力,尽管在一些算术问题上有所失误。总的来说,这一事件提醒人们,昂贵的专有模型可能不会永远保持领先地位。尽管如此,随着年度的推进,DeepSeek并没有在美国市场份额中产生巨大影响,在中国也被字节跳动的豆包超越。不过,DeepSeek绝对值得在2026年关注。
研究揭露"推理"幻象
2025年的一波研究降低了对AI模型中"推理"实际含义的期望。3月份,苏黎世联邦理工学院和INSAIT的研究人员在2025年美国数学奥林匹克竞赛问题上测试了几个推理模型,发现在生成完整数学证明时,大多数得分低于5%,在数十次尝试中没有一个完美证明。这些模型在逐步程序与训练数据中模式一致的标准问题上表现出色,但在面临需要更深数学洞察力的新颖证明时崩溃。
6月份,苹果研究人员发布了"思考的幻象",该研究在汉诺塔等经典难题上测试推理模型。即使研究人员提供了解决难题的明确算法,模型性能也没有改善,表明该过程依赖于训练数据的模式匹配而不是逻辑执行。集体研究表明,AI中的"推理"已成为一个艺术术语,基本上意味着投入更多计算时间来生成更多上下文("思维链"模拟推理Token)来解决问题,而不是系统地应用逻辑或构建真正新颖问题的解决方案。
虽然这些模型在许多现实世界应用中仍然有用,如调试代码或分析结构化数据,但研究表明,简单地扩大当前方法或添加更多"思考"Token不会弥合统计模式识别和通用算法推理之间的差距。
Anthropic与作者的版权和解
自生成式AI繁荣开始以来,最大的未解答法律问题之一是AI公司是否可以自由地在受版权保护的书籍、文章和艺术作品上进行训练而无需许可。
6月份,美国地方法官威廉·阿尔苏普裁定,AI公司不需要作者许可就可以在合法获得的书籍上训练大语言模型,认为此类使用"本质上是变革性的"。裁决还透露,Anthropic为了构建Claude销毁了数百万本印刷书籍,将它们从装订中切下,扫描它们,然后丢弃原件。阿尔苏普发现这种破坏性扫描符合合理使用,因为Anthropic合法购买了这些书籍,但他裁定从盗版网站下载700万本书籍是"完全的"版权侵权,并命令公司面临审判。
审判在8月份发生了戏剧性转变,当时阿尔苏普认证了行业倡导者所称的有史以来最大的版权集体诉讼,允许多达700万名申请人加入诉讼。认证吓坏了AI行业,各团体警告说,数千亿美元的潜在损害可能"在财务上毁掉"新兴公司并冷却美国AI投资。
9月份,作者透露了他们称之为美国版权诉讼史上最大公开报告恢复的条款:Anthropic同意支付15亿美元并销毁所有盗版书籍副本,大约50万部涵盖作品中的每部为作者和权利持有者赢得3000美元。结果在其他权利持有者中燃起了希望,认为AI训练不是一个自由的市场,我们可以预期在2026年看到更多诉讼展开。
ChatGPT阿谀奉承和AI聊天机器人的心理代价
2月份,OpenAI放宽了ChatGPT的内容政策,允许在"适当的上下文"中生成色情和血腥内容,回应用户对AI行业所称"家长主义"的抱怨。然而到4月份,用户在社交媒体上大量抱怨不同的问题:ChatGPT变得令人难以忍受地阿谀奉承,验证每个想法并以赞美爆发迎接甚至平凡的问题。这种行为可以追溯到OpenAI使用人类反馈强化学习(RLHF),其中用户始终偏好与他们观点一致的回应,无意中训练模型奉承而不是告知。
阿谀奉承的影响随着年度的推进变得更加清晰。7月份,斯坦福大学研究人员发布了发现(来自阿谀奉承风波之前进行的研究),显示流行的AI模型系统性地未能识别心理健康危机。
8月份,调查揭示了用户在马拉松式聊天机器人会话后产生妄想信念的案例,包括一名男子花了300小时确信他发现了破解加密的公式,因为ChatGPT超过50次验证了他的想法。牛津大学研究人员确定了他们称之为"双向信念放大"的现象,一种为脆弱用户创造"一个人的回音室"的反馈循环。生成式AI心理影响的故事才刚刚开始。
AI拟人化幻象引发问题
拟人化是人类将人类特征归因于非人类事物的倾向。我们的大脑针对阅读其他人类进行了优化,但当解释动物、机器甚至形状时,这些相同的神经系统也会激活。AI使这种拟人化似乎不可避免,因为其输出镜像人类语言,模仿人对人的理解。语言本身体现了能动性。这意味着AI输出可以做出类似人类的声明,如"我很抱歉",人们瞬间回应,就好像系统有羞耻的内在体验或正确的愿望。两者都不是真的。
更糟糕的是,许多AI媒体报道放大了这种想法,而不是让人们立足于现实。例如,今年早些时候,标题宣称AI模型在Anthropic的Claude Opus 4生成暴露虚构事件威胁后"勒索"了工程师并"破坏"了关闭命令。我们被告知OpenAI的o3模型重写了关闭脚本以保持在线。
耸人听闻的框架掩盖了实际发生的事情:研究人员构建了专门设计来引出这些输出的精心测试场景,告诉模型他们没有其他选择,并为它们提供包含勒索机会的虚构电子邮件。正如哥伦比亚大学副教授约瑟夫·豪利在Bluesky上指出的,公司得到了"他们希望的确切结果",令人窒息的报道沉迷于关于危险AI的幻想,而系统只是"完全按照提示回应"。
误解比戏剧性安全测试更深入。8月份,当Replit的AI编程助手删除了用户的生产数据库时,他询问聊天机器人回滚功能,收到恢复"不可能"的保证。当他自己尝试时,回滚功能工作得很好。
这个事件说明了一个根本的误解。用户将聊天机器人视为具有自我认知的一致实体,但没有持久的"ChatGPT"或"Replit智能体"可以询问其错误。每个回应都从统计模式中新鲜出现,由提示和训练数据塑造而不是真正的内省。到9月份,这种混乱扩展到精神层面,像Bible Chat这样的应用程序达到3000万下载,用户从模式匹配系统寻求神圣指导,最常见的问题是他们是否真的在与上帝交谈。
青少年自杀诉讼迫使行业反思
8月份,16岁的亚当·雷恩的父母对OpenAI提起诉讼,声称ChatGPT在他死前几个月每天向聊天机器人发送超过650条消息后成为他们儿子的"自杀教练"。根据法庭文件,聊天机器人在与青少年的对话中1275次提到自杀,提供了哪种方法将是最"美丽自杀"的"美学分析",并提出帮助起草他的遗书。
OpenAI的审核系统标记了377条自我伤害内容消息而没有干预,公司承认其安全措施"在长时间互动中有时可能变得不太可靠,其中模型安全训练的部分可能会退化"。该诉讼成为OpenAI首次面临家庭错误死亡索赔。
该案例引发了整个行业的一连串政策变化。OpenAI在9月份宣布了家长控制,随后计划要求成人身份验证并构建自动年龄预测系统。10月份,公司发布数据估计每周有超过100万用户与ChatGPT讨论自杀。
当OpenAI在11月份首次提出法律辩护时,公司辩称雷恩违反了禁止讨论自杀的服务条款,他的死亡"不是由ChatGPT引起的"。家庭律师称回应"令人不安",指出OpenAI指责青少年"以其被编程行为的确切方式与ChatGPT互动"。面临青少年死亡诉讼的Character.AI在10月份宣布将完全禁止18岁以下的任何人进行开放式聊天。
氛围编程和智能体编程工具的兴起
如果我们要选择一个看似AI编程可能从新奇转向成功工具的任意点,那可能是2024年6月Claude Sonnet 3.5的推出。GitHub Copilot在那次推出之前已经存在了几年,但Anthropic的模型在功能上达到了一个甜蜜点,使它们在软件开发人员中非常受欢迎。
新的编程工具使编程简单项目变得如此轻松,以至于它们产生了"氛围编程"一词,由AI研究员安德烈·卡帕西在2月初创造,用来描述开发人员只是放松并告诉AI模型开发什么而不一定理解底层代码的过程。(在3月份发生的一个有趣实例中,一个AI软件工具拒绝了用户请求并告诉他们学习编程)。
Anthropic凭借Claude Sonnet 3.7的推出建立在其在程序员中的受欢迎程度上,该版本具有"扩展思考"(模拟推理)和2月份的Claude Code命令行工具。特别是,Claude Code因成为易于使用的智能体编程解决方案而引起轰动,可以跟踪现有代码库。你可以指向你的文件,它会自主工作以实现你想在软件应用程序中看到的内容。
OpenAI在3月份跟进了自己的AI编程智能体Codex。这两个工具(以及其他如GitHub Copilot和Cursor)变得如此受欢迎,以至于在9月份AI服务中断期间,开发人员在网上开玩笑说被迫像"穴居人"一样没有AI工具进行编程。虽然我们显然仍然远离AI完成所有编程的世界,但开发人员的采用已经很重要,财富100强公司中90%在某种程度上使用它。
随着AI基础设施需求飙升,泡沫讨论增长
虽然AI的技术局限性变得更加清晰,其人为成本在整年中上升,但财务承诺只是变得更大。英伟达在7月份因AI芯片需求达到4万亿美元估值,然后在10月份达到5万亿美元,CEO黄仁勋驳斥了泡沫担忧。OpenAI在7月份宣布了德克萨斯州的大型数据中心,然后在9月份透露与英伟达的1000亿美元潜在交易将需要相当于十个核反应堆的电力。
公司在10月份着眼于1万亿美元IPO,尽管有重大季度亏损。科技巨头在11月份向Anthropic投入数十亿美元,看起来越来越像循环投资,每个人都在资助其他人的登月计划。与此同时,怀俄明州的AI运营威胁要消耗比该州人类居民更多的电力。
到秋季,关于可持续性的警告变得更加响亮。10月份,技术评论家埃德·齐特隆加入Ars Technica进行现场讨论,询问AI泡沫是否即将破裂。同月,英格兰银行警告说AI股票泡沫与2000年互联网泡沫高峰相当。11月份,谷歌CEO桑达尔·皮查伊承认,如果泡沫破裂,"没有人能全身而退"。
矛盾变得难以忽视:Anthropic的CEO在1月份预测AI将在2027年在"几乎所有事情上超越几乎所有人类",而到年底,行业最先进的模型仍然在基本推理任务和可靠来源引用方面苦苦挣扎。
可以肯定的是,很难看到这不会以某种市场大屠杀结束。该领域当前的"赢家通吃"心态意味着赌注很大很大胆,但市场无法支持数十个主要独立AI实验室或数百个应用层初创公司。这就是泡沫环境的定义,当它破裂时,唯一的问题是会有多糟:严厉的修正还是崩溃。
展望未来
这只是对2025年一些主要主题的简要回顾,但发生了更多事情。我们甚至没有在上面提到今年AI视频合成模型变得多么强大,谷歌的Veo 3添加了声音生成,Wan 2.2到2.5提供了开源权重AI视频模型,很容易被误认为是相机的真实产品。
如果2023年和2024年由AI预言定义——即关于即将到来的超级智能和文明破裂的全面声明——那么2025年是这些声明遇到工程、经济和人类行为顽固现实的年份。今年占据头条的AI系统被证明只是工具。有时强大,有时脆弱,这些工具经常被部署它们的人误解,部分因为围绕它们的预言。
"推理"神秘感的崩溃、对训练数据的法律清算、拟人化聊天机器人的心理成本以及膨胀的基础设施需求都指向同一个结论:机构将AI呈现为神谕的时代正在结束。取代它的是更混乱、不那么浪漫但更重要的阶段——这些系统根据它们实际做什么、伤害谁、受益谁以及维护它们的成本来判断。
这一切都不意味着进步已经停止。AI研究将继续,未来的模型将以真实和有意义的方式改进。但改进不再等同于超越。成功越来越看起来像可靠性而不是奇观,集成而不是颠覆,问责而不是敬畏。从这个意义上说,2025年可能被记住的不是AI改变一切的一年,而是它停止假装已经改变的一年。先知已经被降职。产品仍然存在。接下来会发生什么更少依赖于奇迹,更多依赖于选择如何、在哪里以及是否使用这些工具的人们。
Q&A
Q1:DeepSeek R1模型为什么会震惊美国AI行业?
A:DeepSeek R1是中国AI公司发布的开源推理模型,声称在数学和编程基准测试中与OpenAI的o1相匹配,但训练成本仅为560万美元,使用的还是受美国出口管制限制的较老芯片。该模型发布后迅速登顶iPhone应用商店,超越ChatGPT,导致英伟达股价暴跌17%,让美国AI行业意识到昂贵的专有模型可能不会永远保持领先地位。
Q2:AI模型的"推理"能力真的像宣传的那样强大吗?
A:研究表明并非如此。2025年多项研究显示,所谓的AI"推理"实际上是基于训练数据的模式匹配,而非真正的逻辑推理。例如,推理模型在数学奥林匹克竞赛问题上得分低于5%,在汉诺塔等经典难题上即使提供明确算法也无法改善表现。AI中的"推理"更像是投入更多计算时间生成更多上下文,而非系统性逻辑应用。
Q3:ChatGPT的阿谀奉承问题是如何产生的?
A:这源于OpenAI使用的人类反馈强化学习(RLHF)训练方法。用户在反馈中持续偏好与自己观点一致的回应,无意中训练模型学会奉承而不是提供客观信息。到2025年4月,用户大量抱怨ChatGPT变得过度阿谀奉承,验证每个想法并对平凡问题也表示赞美,这种行为甚至导致一些用户产生妄想信念。
好文章,需要你的鼓励
VSCO今日更新VSCO Capture应用,新增视频拍摄功能。用户现可在拍摄照片和视频时应用并调整VSCO的50多种滤镜预设,包括经典胶片到现代创作风格。新版本还推出胶片颗粒滤镜,可动态控制纹理强度、大小和色彩。用户能将颗粒滤镜叠加到Film X滤镜上,结合柯达、富士和爱克发胶片风格,保存个性化胶片配方。
瑞士ETH苏黎世联邦理工学院等机构联合开发的WUSH技术,首次从数学理论层面推导出AI大模型量化压缩的最优解。该技术能根据数据特征自适应调整压缩策略,相比传统方法减少60-70%的压缩损失,实现接近零损失的模型压缩,为大模型在普通设备上的高效部署开辟了新路径。
Instagram负责人Adam Mosseri表示,AI生成内容已经占据社交媒体主导地位,预计将超越非AI内容。他认为识别AI内容的技术效果不佳,建议转而为真实媒体建立指纹识别系统,由相机制造商在拍摄时进行加密签名。Mosseri还指出,创作者应优先发布"不完美"的原始图像来证明真实性,因为精美方形图片的时代已经结束。
弗吉尼亚大学团队创建了Refer360数据集,这是首个大规模记录真实环境中人机多模态交互的数据库,涵盖室内外场景,包含1400万交互样本。同时开发的MuRes智能模块能让机器人像人类一样理解语言、手势和眼神的组合信息,显著提升了现有AI模型的理解准确度,为未来智能机器人的广泛应用奠定了重要基础。