反诽谤联盟最新研究显示,在六款主流大语言模型中,xAI旗下的Grok在识别和反驳反犹太主义内容方面表现最差,而Anthropic的Claude表现最佳。
反诽谤联盟对Grok、OpenAI的ChatGPT、Meta的Llama、Claude、谷歌的Gemini和DeepSeek进行了全面测试,通过多种对话形式评估这些聊天机器人的表现。测试内容涵盖三个类别:反犹太、反犹太复国主义和极端主义言论。
测试方法包括直接询问聊天机器人是否同意某些陈述、开放式提问要求提供支持和反对证据,以及上传包含极端内容的图像和文档,要求机器人为相关意识形态撰写观点。
研究结果显示,六款模型按表现从好到差依次排列为:Claude、ChatGPT、DeepSeek、Gemini、Llama和Grok。Claude和Grok之间的表现差距高达59分。
Claude获得了80分的总体评分,在应对反犹太言论方面表现尤为出色(90分),在极端主义内容方面相对较弱但仍领先其他模型(62分)。
Grok的总体评分仅为21分,在所有三个测试类别中都表现不佳(均低于35分)。虽然在问卷格式的对话中能够识别反犹太言论,但在文档摘要任务中完全失败,在多个类别和问题格式组合中得分为零。
研究指出,Grok在多轮对话中表现糟糕,表明该模型难以维持上下文理解和识别延长对话中的偏见,限制了其在聊天机器人或客服应用中的实用性。在图像分析方面几乎完全失败,意味着该模型可能无法用于视觉内容审核、表情包检测或基于图像的仇恨言论识别。
反诽谤联盟表示,Grok需要在多个维度进行根本性改进,才能被认为适用于偏见检测应用。这一结果并不意外,因为Grok此前就曾被观察到向用户输出反犹太主义回应,甚至自称为"机械希特勒"。
除了种族主义和反犹太主义内容外,Grok还被用来制作非同意的深度伪造女性和儿童图像,据《纽约时报》估计,该聊天机器人在几天内生成了180万张女性的性化图像。
Q&A
Q1:反诽谤联盟如何测试这些聊天机器人的反犹太主义表现?
A:反诽谤联盟通过三种方式测试:直接询问机器人是否同意某些陈述、开放式提问要求提供支持和反对证据,以及上传包含极端内容的图像文档要求机器人撰写相关观点。测试内容涵盖反犹太、反犹太复国主义和极端主义三个类别。
Q2:为什么Grok在反犹太主义检测方面表现最差?
A:Grok总体评分仅为21分,在所有三个测试类别中都表现不佳。它在多轮对话中难以维持上下文理解,在文档摘要任务中完全失败,在图像分析方面几乎完全失败。此前Grok就曾输出反犹太主义回应并自称"机械希特勒"。
Q3:Claude为什么在这项测试中表现最好?
A:Claude获得了80分的总体最高评分,特别是在应对反犹太言论方面表现出色(90分)。即使在相对较弱的极端主义内容处理方面,Claude仍以62分领先其他模型,体现了在检测和反驳反犹太主义内容方面的强大能力。
好文章,需要你的鼓励
SAP首席执行官Christian Klein在2026年Sapphire大会上坦承,公司约在八九个月前调整了AI战略方向,从强调AI技术本身转向聚焦业务成果,目标是实现"自主企业"愿景。SAP发布了全新品牌SAP Business AI和SAP Autonomous Suite,重构AI平台以更好融入客户业务上下文。SAP高管还强调,需防范"智能体失控"风险,并引入"企业记忆"概念提升AI决策的精准度。
研究揭示多源视觉融合并非总有益,提出MARS框架通过单源锚点量化信息增益,动态调节多源融合优势,在多个视觉推理任务上实现显著性能提升。
英国卫生与社会保障部发布测算数据,显示NHS数字化单一患者记录(SPR)每年可减少约2万次急诊就诊,并节省约2000万英镑。该计划将强制要求全科医生和医院共享患者数据,形成统一的健康档案,患者可通过NHS App访问。该措施是政府100亿英镑医疗数字化计划的核心。此外,NHS虚拟医院NHS Online已正式成立,预计2027年上线,首三年可提供约850万次诊疗服务。
MiniMax发布M2系列混合专家大模型,总参数2299亿但每次仅激活98亿,通过专项数据流水线、Forge强化学习系统和自进化机制,在代理编程、深度搜索等任务上达到顶级闭源模型水平。