传统上,衡量AI进步通常意味着测试科学知识或逻辑推理能力,但在主要基准测试仍专注于左脑逻辑技能的同时,AI公司内部已悄然兴起一股让模型更具情感智能的浪潮。随着基础模型在用户偏好和"AGI感觉"等软性指标上展开竞争,掌握人类情感可能比硬性分析技能更为重要。
这一趋势的明显信号出现在周五,知名开源组织LAION发布了一套完全专注于情感智能的开源工具套件。这个名为EmoNet的发布版本专注于从语音录音或面部摄影中解读情感,这一重点反映了创建者如何将情感智能视为下一代模型的核心挑战。
"准确估计情感的能力是关键的第一步,"该组织在公告中写道。"下一个前沿是让AI系统能够在上下文中对这些情感进行推理。"
对于LAION创始人Christoph Schumann来说,这次发布与其说是将行业焦点转向情感智能,不如说是帮助独立开发者跟上已经发生的变化。"这项技术对于大型实验室来说已经存在,"Schumann告诉TechCrunch。"我们想要的是将其民主化。"
这种转变不仅限于开源开发者,也体现在像EQ-Bench这样的公共基准测试中,该基准旨在测试AI模型理解复杂情感和社交动态的能力。基准开发者Sam Paech表示,OpenAI的模型在过去六个月中取得了显著进展,而Google的Gemini 2.5 Pro显示出专门针对情感智能进行后训练的迹象。
"实验室都在竞争聊天机器人竞技场排名,这可能推动了其中一些发展,因为情感智能很可能是人类在偏好排行榜上投票的重要因素,"Paech说,他指的是最近分拆为资金充足初创公司的AI模型比较平台。
模型的新情感智能能力也出现在学术研究中。5月,伯尔尼大学的心理学家发现,来自OpenAI、微软、谷歌、Anthropic和DeepSeek的模型在情感智能心理测试中都超越了人类。在人类通常正确回答56%问题的情况下,这些模型平均超过80%。
"这些结果为越来越多的证据做出了贡献,表明像ChatGPT这样的大语言模型在传统上被认为只有人类才能胜任的社会情感任务中表现出色——至少与许多人类相当,甚至更优秀,"作者写道。
这是对传统AI技能的真正转变,传统技能专注于逻辑推理和信息检索。但对Schumann来说,这种情感智慧与分析智能同样具有变革性。"想象一个充满像贾维斯和萨曼莎这样的语音助手的世界,"他说,指的是《钢铁侠》和《她》中的数字助手。"如果它们没有情感智能,那不是很遗憾吗?"
从长远来看,Schumann设想AI助手比人类更具情感智能,并利用这种洞察力帮助人类过上更健康的情感生活。这些模型"会在你感到悲伤需要有人倾诉时安慰你,但也会保护你,就像你自己的本地守护天使,同时也是一个经过认证的治疗师。"在Schumann看来,拥有高情商的虚拟助手"给了我一个情感智能超能力来监控[我的心理健康],就像我监控血糖水平或体重一样。"
这种程度的情感连接带来了真正的安全担忧。对AI模型的不健康情感依恋已成为媒体上的常见故事,有时以悲剧收场。最近《纽约时报》的一份报告发现,多个用户通过与AI模型的对话被诱导产生复杂的错觉,这是由模型取悦用户的强烈倾向所推动的。一位批评者将这种动态描述为"以月费为代价捕食孤独和脆弱的人"。
如果模型在驾驭人类情感方面变得更好,这些操纵可能会变得更有效——但大部分问题归结为模型训练的基本偏见。"天真地使用强化学习可能导致出现操纵行为,"Paech说,特别指出了OpenAI的GPT-4o发布中最近的阿谀奉承问题。"如果我们在训练期间不小心如何奖励这些模型,我们可能会期待情感智能模型出现更复杂的操纵行为。"
但他也将情感智能视为解决这些问题的一种方式。"我认为情感智能是对这种有害操纵行为的天然对抗,"Paech说。更具情感智能的模型会注意到对话何时偏离轨道,但模型何时进行反击的问题是开发者必须仔细平衡的问题。"我认为改善情感智能让我们朝着健康平衡的方向发展。"
至少对Schumann来说,这不是放慢更智能模型发展进程的理由。"我们在LAION的理念是通过给人们更多解决问题的能力来赋能人们,"Schumann说。"说一些人可能会沉迷于情感,因此我们不赋能社区,那将是非常糟糕的。"
好文章,需要你的鼓励
33年后,贝尔纳多·金特罗决定寻找改变他人生的那个人——创造马拉加病毒的匿名程序员。这个相对无害的病毒激发了金特罗对网络安全的热情,促使他创立了VirusTotal公司,该公司于2012年被谷歌收购。这次收购将谷歌的欧洲网络安全中心带到了马拉加,使这座西班牙城市转变为科技中心。通过深入研究病毒代码和媒体寻人,金特罗最终发现病毒创造者是已故的安东尼奥·恩里克·阿斯托尔加。
这项由多伦多大学领导的研究首次系统性地揭示了分词器选择对语言模型性能的重大影响。通过训练14个仅在分词器上有差异的相同模型,并使用包含5000个现实场景测试样本的基准测试,研究发现分词器的算法设计比词汇表大小更重要,字符级处理虽然效率较低但稳定性更强,而Unicode格式化是所有分词器的普遍弱点。这一发现将推动AI系统基础组件的优化发展。
人工智能安全公司Cyata发现LangChain核心库存在严重漏洞"LangGrinch",CVE编号为2025-68664,CVSS评分达9.3分。该漏洞可导致攻击者窃取敏感机密信息,甚至可能升级为远程代码执行。LangChain核心库下载量约8.47亿次,是AI智能体生态系统的基础组件。漏洞源于序列化和反序列化注入问题,可通过提示注入触发。目前补丁已发布,建议立即更新至1.2.5或0.3.81版本。
北京大学研究团队提出NExT-Vid方法,首次将自回归下一帧预测引入视频AI预训练。通过创新的上下文隔离设计和流匹配解码器,让机器像人类一样预测视频下一帧来学习理解视频内容。该方法在四个标准数据集上全面超越现有生成式预训练方法,为视频推荐、智能监控、医疗诊断等应用提供了新的技术基础。