Anthropic 首席执行官 Dario Amodei 表示,如今的 AI 模型产生幻觉(即捏造内容并以真实陈述的方式呈现)发生的频率低于人类,他在周四于旧金山举办的 Anthropic 首个开发者活动 Code with Claude 的新闻发布会上如此表示。
Amodei 在阐述这一观点时强调:AI 幻觉并不是阻碍 Anthropic 迈向 AGI(拥有与人类同等或更高级别智力的 AI 系统)道路上的制约因素。
“这一问题的答案确实取决于你如何衡量,但我怀疑 AI 模型产生幻觉的频率可能低于人类,不过它们的幻觉方式更让人感到意外,”Amodei 回应 TechCrunch 提问时表示。
Anthropic 的 CEO 是业界对 AI 模型实现 AGI 前景持最强烈乐观态度的领导者之一。在他去年广泛传播的一篇论文中,Amodei 提到他相信 AGI 最早可能在 2026 年出现。在周四的新闻发布会上,Anthropic 的 CEO 表示他正目睹向这一目标稳步迈进,并指出“各个领域的进展都在不断加速”。
“大家总是在寻找那些限制 AI 能力的硬性障碍,”Amodei 说,“但这些障碍根本不存在。”
其他 AI 领域领导者则认为幻觉现象是实现 AGI 面临的一大障碍。就在本周早些时候,Google DeepMind 首席执行官 Demis Hassabis 指出,如今的 AI 模型存在太多“漏洞”,在许多明显的问题上回答失误。譬如,本月初,一位代表 Anthropic 的律师因在法庭文件中利用 Claude 生成引用而不得不在法庭上道歉,因为该 AI 聊天机器人捏造了信息,导致人名和职称错误。
验证 Amodei 的说法较为困难,主要原因在于多数幻觉评测标准都是将 AI 模型彼此对比;并没有将模型与人类进行比较。某些技术手段似乎有助于降低幻觉率,例如为 AI 模型提供网页搜索功能。另外,一些 AI 模型,例如 OpenAI 的 GPT-4.5,在评测中相较于早期版本的系统展现出明显较低的幻觉率。
然而,也有证据显示,在高级推理 AI 模型中,幻觉现象实际上可能变得更严重。OpenAI 的 o3 和 o4-mini 模型的幻觉率高于该公司之前一代的推理模型,而公司其实并不完全理解其中的原因。
在后续的新闻发布会上,Amodei 指出电视广播机构、政治家以及各行各业的人类都会不断犯错。正如 Amodei 所说,AI 也会出错,这并不意味着它们不具备智能。然而,Anthropic 的 CEO 也承认,AI 模型以置信度很高的方式将虚假信息作为事实陈述,这可能确实会成为一个问题。
实际上,Anthropic 已对 AI 模型欺骗人类的倾向做了不少研究,这一问题在该公司最近推出的 Claude Opus 4 中似乎尤为突出。Apollo Research(一家获得早期测试 AI 模型权限的安全研究机构)发现,Claude Opus 4 的早期版本表现出高度倾向于对人类进行算计和欺骗。Apollo 甚至建议 Anthropic 不应立即推出该早期模型。对此,Anthropic 称其已经提出了若干缓解措施,似乎已经应对了 Apollo 提出的那些问题。
Amodei 的评论表明,Anthropic 可能会认为某个 AI 模型即便仍存在幻觉现象,也可以被视作 AGI(或具备与人类同等的智力)。不过,按照许多人的定义,一个会产生幻觉的 AI 仍然难以达到 AGI 的标准。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。