人工智能的普及速度超过了个人电脑和互联网,仅用三年时间就覆盖了53%的人口。与此同时,AI引发的有害事件数量也在同步攀升。专家与普通民众普遍认为,影响将主要集中在两个领域:选举和人际关系。
根据斯坦福大学以人为本人工智能研究所(HAI)发布的《2026年AI指数报告》,"负责任的AI发展速度没能跟上AI能力提升的步伐,安全基准落后,事故数量急剧上升。"
报告指出,根据AI事故数据库的定义,有据可查的AI事故——即"由人工智能系统部署在现实世界中造成的实际伤害或潜在伤害"——2025年达到362起,高于2024年的233起。
这与AI应用的快速扩张相吻合:88%的企业表示正在使用AI,约80%的大学生也坦承在使用AI。
一种可能的解释是,AI模型在编程方面已经相当出色。在SWE-bench测试中,AI处理真实GitHub问题的得分在一年内从60%跃升至接近100%。
然而,单一基准的高分并不能反映全貌,因为所有AI模型都有各自的短板。在专门评估模型是否会在不确定时承认局限、而非随意猜测的AA全知指数测试中,26个模型的幻觉率从22%到94%不等。
当律师借助AI模型伪造"超过二十余处引用和事实陈述",并被美国第六巡回上诉法院点名批评时,这正是斯坦福HAI研究人员所说的"负责任的AI没能跟上实际使用步伐"的典型案例。
尽管外界对AI超级智能议论纷纷,但在识别时间这件事上,AI的表现远不如人类。ClockBench基准测试显示,截至2026年3月,OpenAI的GPT-5.4 High正确读取指针式时钟的成功率仅为50.6%,而"非专业人类"的正确率约为90%。
机器人的表现则更加逊色,根据BEHAVIOR-1K仿真基准测试,机器人完成家庭任务的成功率仅为12%。
这份长达423页的HAI报告,代表了斯坦福团队对当前AI研究现状及其社会影响的全面梳理。报告由人类研究员借助ChatGPT和Claude协助撰写,同时获得了谷歌、OpenAI等机构的资金支持。报告的研究结论不止于"负责任的AI"供给不足,还涵盖了AI行业的多个层面。
在公众舆论方面,报告发现:"AI专家与美国公众在AI未来的几乎所有问题上看法相左,唯独在AI将损害选举和个人关系这一点上达成一致。"
64%的美国公众预计,AI将在未来二十年内减少人类的就业机会,而只有5%的人认为AI会创造更多岗位。专家群体中,只有39%预计就业岗位会减少,19%预计就业机会增加。然而,专家们同时认为,到2030年,生成式AI将参与美国80%的工作时长,而公众对这一比例的估计仅为10%。
仅有31%的美国受访者表示信任政府能够负责任地监管AI,在所有参与调查的国家中比例最低。鉴于OpenAI正在支持伊利诺伊州一项旨在限制AI公司在模型造成灾难性危害时所负责任的法案,加之白宫推行"对行业友好的AI政策",美国公众对政府是否真正致力于保护自身权益产生质疑,也就不难理解了。
HAI报告指出,中国AI模型与美国AI模型之间的性能差距已大幅收窄。截至2026年3月,美国顶尖模型Claude Opus 4.6在Arena基准测试中得分1,503,仅比字节跳动的Dola-Seed Preview(1,464分)高出2.7个百分点。而截至2026年4月9日,差距进一步缩小——Claude Opus 4.6 Thinking得分1,548,智谱AI的GLM-5.1以1,530分紧随其后。
美国在AI投资方面仍保持领先地位,2025年投资额据称已达2,859亿美元,是中国124亿美元的23倍。不过报告也指出,中国的政府资金投入或许存在统计遗漏。即便如此,美国正面临技术人才的持续流失。报告显示:"自2017年以来,赴美AI研究人员和开发者数量下降了89%,仅过去一年就减少了80%。"
Q&A
Q1:《2026年AI指数报告》中AI事故数量增加的主要原因是什么?
A:报告指出,随着AI的快速普及,AI事故数量也同步上升。2025年,有据可查的AI事故达到362起,相比2024年的233起明显增加。主要原因在于AI能力快速提升,但"负责任的AI"发展滞后,安全基准跟不上实际部署速度,导致现实世界中的伤害或潜在伤害事件频发,律师使用AI伪造引用被法院点名批评便是典型案例。
Q2:AI模型目前在哪些方面仍存在明显短板?
A:尽管AI在编程任务上表现出色,但在其他领域仍有明显不足。例如,在识别指针式时钟方面,OpenAI的GPT-5.4 High正确率仅有50.6%,远低于普通人类约90%的水平。此外,在26个模型的幻觉率测试中,部分模型的幻觉率高达94%,说明AI在面对不确定信息时仍可能随意"编造"答案。机器人在家庭任务中的完成率也仅有12%。
Q3:美国在全球AI发展中的领先地位是否正在受到挑战?
A:是的,领先优势正在收窄。中国AI模型与美国顶尖模型的性能差距已大幅缩小,字节跳动和智谱AI的模型在国际基准测试中紧追美国头部产品。与此同时,美国AI技术人才流入量自2017年以来下降了89%,仅过去一年就减少了80%,这对美国维持AI领域的长期竞争优势构成挑战。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
伊尔德兹技术大学团队通过词典手术和离线蒸馏,以不足20美元成本打造出专为土耳其语优化的200M参数句子嵌入模型,在语义相似度任务上超越了参数量更大的原版教师模型。