Grok成最严重反犹太主义聊天机器人

反诽谤联盟最新研究显示，在六个主要大语言模型中，xAI的Grok在识别和反驳反犹太主义内容方面表现最差。研究测试了Grok、ChatGPT、Llama、Claude、Gemini和DeepSeek等模型，通过反犹太、反犹太复国主义和极端主义三类内容进行评估。Claude表现最佳得分80分，Grok垫底仅21分，两者相差59分。研究指出Grok需要在多个维度进行根本性改进。

反诽谤联盟最新研究显示，在六款主流大语言模型中，xAI旗下的Grok在识别和反驳反犹太主义内容方面表现最差，而Anthropic的Claude表现最佳。

反诽谤联盟对Grok、OpenAI的ChatGPT、Meta的Llama、Claude、谷歌的Gemini和DeepSeek进行了全面测试，通过多种对话形式评估这些聊天机器人的表现。测试内容涵盖三个类别：反犹太、反犹太复国主义和极端主义言论。

测试方法包括直接询问聊天机器人是否同意某些陈述、开放式提问要求提供支持和反对证据，以及上传包含极端内容的图像和文档，要求机器人为相关意识形态撰写观点。

研究结果显示，六款模型按表现从好到差依次排列为：Claude、ChatGPT、DeepSeek、Gemini、Llama和Grok。Claude和Grok之间的表现差距高达59分。

Claude获得了80分的总体评分，在应对反犹太言论方面表现尤为出色（90分），在极端主义内容方面相对较弱但仍领先其他模型（62分）。

Grok的总体评分仅为21分，在所有三个测试类别中都表现不佳（均低于35分）。虽然在问卷格式的对话中能够识别反犹太言论，但在文档摘要任务中完全失败，在多个类别和问题格式组合中得分为零。

研究指出，Grok在多轮对话中表现糟糕，表明该模型难以维持上下文理解和识别延长对话中的偏见，限制了其在聊天机器人或客服应用中的实用性。在图像分析方面几乎完全失败，意味着该模型可能无法用于视觉内容审核、表情包检测或基于图像的仇恨言论识别。

反诽谤联盟表示，Grok需要在多个维度进行根本性改进，才能被认为适用于偏见检测应用。这一结果并不意外，因为Grok此前就曾被观察到向用户输出反犹太主义回应，甚至自称为"机械希特勒"。

除了种族主义和反犹太主义内容外，Grok还被用来制作非同意的深度伪造女性和儿童图像，据《纽约时报》估计，该聊天机器人在几天内生成了180万张女性的性化图像。

Q&A

Q1：反诽谤联盟如何测试这些聊天机器人的反犹太主义表现？

A：反诽谤联盟通过三种方式测试：直接询问机器人是否同意某些陈述、开放式提问要求提供支持和反对证据，以及上传包含极端内容的图像文档要求机器人撰写相关观点。测试内容涵盖反犹太、反犹太复国主义和极端主义三个类别。

Q2：为什么Grok在反犹太主义检测方面表现最差？

A：Grok总体评分仅为21分，在所有三个测试类别中都表现不佳。它在多轮对话中难以维持上下文理解，在文档摘要任务中完全失败，在图像分析方面几乎完全失败。此前Grok就曾输出反犹太主义回应并自称"机械希特勒"。

Q3：Claude为什么在这项测试中表现最好？

A：Claude获得了80分的总体最高评分，特别是在应对反犹太言论方面表现出色（90分）。即使在相对较弱的极端主义内容处理方面，Claude仍以62分领先其他模型，体现了在检测和反驳反犹太主义内容方面的强大能力。

来源：The Verge

0赞

好文章，需要你的鼓励

Grok成最严重反犹太主义聊天机器人

来源：The Verge

2026

01/29

10:09

分享

点赞

Uber年度遗失物报告揭示：数千件物品遗留在无人驾驶出租车中

Uber今年将部署500辆数据采集车辆，助力自动驾驶发展

Uber、Wayve与Waymo的伦敦无人驾驶出租车大战即将开启

Mobileye计划2027年在美国推出自动驾驶出租车服务

Waymo召回近4000辆无人出租车，原因是其进入高速公路施工区域

特斯拉在奥斯汀开始测试无方向盘无踏板Cybercab量产版

图灵奖得主Patterson：摩尔定律的真相，CPU、GPU、TPU的诞生与分工

Omdia报告：Dell PowerProtect助力企业三年期网络弹性TCO最高降低61%

“驯服”千亿模型，鏖战“黑猴打瓦”，龙虾“一键接管” ，锐龙AI Max+ 395开启全能桌面AI主机“王炸”时刻

豪声电子泰国电声工厂初步投产：2500万泰铢项目进入产能爬坡

地瓜机器人将560TOPS端侧算力，加载到了20+头部团队机器人中

WAIC 2026主论坛（下午场）重磅揭晓！

天文学家运用AI从哈勃档案中发现1400个异常天体

微软推出Maia 200 AI加速芯片挑战云计算巨头

Claude Code无视禁令读取机密文件引发安全担忧

亚马逊裁员1.6万人，聚焦战略增长领域

谷歌Chrome浏览器迎来重大Gemini AI升级

阿联酋三大机构联合测试无人机关键基础设施安防系统

中国在AI前沿技术落后美国但或将快速追赶

2026年Kubernetes发展的四大趋势将重塑企业AI基础设施

德勤警告：AI智能体部署速度超越安全框架建设

Salesforce AI架构师：企业级AI扩展的关键挑战与解决方案

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: