Anthropic 发布 Claude 3.7 Sonnet 模型,向 OpenAI、DeepSeek 及整个 AI 行业发出警示。这个新模型让用户能够前所未有地控制 AI 在生成响应前的"思考"时间。此次发布同时伴随着命令行 AI 编程助手 Claude Code 的推出,标志着 Anthropic 正积极进军企业级 AI 市场,这可能会重塑企业软件开发和工作自动化的方式。
当前形势紧迫。上个月,DeepSeek 推出的 AI 模型以远低于美国系统的成本实现了相当的性能,这一消息震惊科技界,导致英伟达股价下跌 17%,引发了对美国 AI 领导地位的担忧。如今,Anthropic 押注于对 AI 推理的精确控制,而不仅仅是原始速度或成本节约,以此获得竞争优势。
Anthropic 的研究产品管理负责人 Dianne Penn 在接受 VentureBeat 采访时表示:"我们认为推理是 AI 的核心组成部分,而不是需要额外付费才能使用的独立功能。就像人类一样,AI 应该能够同时处理快速响应和复杂思考。对于'现在几点了?'这样的简单问题,它应该立即回答。但对于复杂任务,比如规划一个为期两周的意大利旅行并考虑无麸质饮食需求,它需要更多的处理时间。"
基准测试数据支持 Anthropic 的雄心愿景。在扩展思考模式下,Claude 3.7 Sonnet 在研究生级别推理任务中达到 78.2% 的准确率,挑战 OpenAI 的最新模型并超越 DeepSeek-R1。
在实际应用中的指标更具说服力。该模型在零售导向的工具使用方面得分为 81.2%,在指令遵循方面显著提升 (93.2%) —— 这些都是竞争对手要么表现不佳,要么尚未公布结果的领域。
虽然 DeepSeek 和 OpenAI 在传统数学基准测试中领先,但 Claude 3.7 的统一方法证明,单一模型可以有效地在快速响应和深度分析之间切换,这可能让企业不再需要为不同类型的任务维护多个 AI 系统。
Anthropic 同时推出了 Claude Code,这是一个命令行工具,允许开发者将复杂的工程任务直接委托给 AI。该系统在提交代码更改前需要人工批准,体现了业界对负责任 AI 开发的日益关注。
Penn 还用一个意想不到的例子说明了 AI 能力的巨大进步:"我们一直让不同版本的 Claude 玩宝可梦...这个版本已经到达了枯叶市,抓到了多只宝可梦,甚至会刷级升级。它能针对对手选择合适的宝可梦对战。"
对企业客户来说,这可能意味着不必再维护多个用于不同任务的 AI 系统,而是部署一个更强大的统一解决方案。接下来的几个月将揭示 Anthropic 在统一 AI 推理上的押注是否会重塑企业市场,或仅仅成为行业快速发展中的又一次尝试。
好文章,需要你的鼓励
Google DeepMind 首席执行官 Demis Hassabis 在内部会议上回应了员工对中国 AI 初创公司 DeepSeek 的担忧。他强调 Google 拥有更高效、性能更强的 AI 模型,对公司战略充满信心。Hassabis 认为 DeepSeek 的成本可能被低估,并可能依赖西方公司的先进模型。
Nvidia 推出了一款名为 Signs 的创新 AI 工具,旨在帮助人们学习美国手语 (ASL)。该平台提供手语词汇库、3D 虚拟教师和实时反馈功能,用户可以通过网络摄像头获得签名评估。Nvidia 计划扩展词汇库并开放数据集,以促进无障碍 AI 工具的开发,为听障儿童家庭提供早期沟通渠道。
Anthropic 发布全新前沿 AI 模型 Claude 3.7 Sonnet,这是首个混合推理模型,能够实时回答问题,也可根据用户需求延长思考时间以提供更深入的答案。该模型在多项基准测试中表现优异,并推出了专注于代码开发的 Claude Code 版本。