人工智能模型开发公司 Anthropic PBC 推出了一款名为 Claude 3.7 Sonnet 的前沿模型,向 OpenAI、DeepSeek Ltd. 等业内公司发起了挑战。
与之前的模型不同,Claude 3.7 Sonnet 能够根据用户的要求,对问题进行任意时长的"思考"。根据其思考时间的长短,其回答可能会有很大的差异。
该公司表示,Claude 3.7 Sonnet 是首个"混合 AI 推理模型",因为它既可以实时回答,也可以根据需要生成经过深思熟虑的回答。用户可以选择何时激活其推理能力,并指定希望它思考问题的时长。
Claude 3.7 Sonnet 现已向所有用户开放,包括免费用户,但只有付费订阅用户才能使用其高级推理功能。免费用户只能使用实时版本,不过该公司表示这相比其前身 Claude 3.5 Sonnet 仍有所改进。
该公司表示,Claude 3.7 Sonnet 的收费标准为每百万输入 token 3 美元,这意味着你可以输入约 75 万字 (超过《指环王》三部曲的总字数) 只需 3 美元。输出则收取每百万 token 15 美元。
因此,Claude 3.7 Sonnet 的价格比 OpenAI 的 o3-mini 推理模型和 DeepSeek 的 R1 要贵,后两者的价格分别便宜约三倍和六倍。不过,Anthropic 的模型一直较为昂贵,用户使用 Claude 3.5 Sonnet 时支付的费率完全相同。所以他们无需额外付费就能获得新的推理功能。
Claude 3.7 Sonnet 是该公司首次尝试开发推理模型。与传统模型相比,推理模型需要更多的计算能力和更长的响应时间。它们的工作原理是将用户的问题或难题分解成一系列小步骤,分别考虑每个步骤后再整合回答,这种技术通常能产生更好的答案。
目前,用户需要自行选择 Claude 3.7 Sonnet 思考问题的时长。但在即将发布的更新中,该公司表示模型将能够自行确定最合适的思考时间,在成本和答案质量之间取得最佳平衡。
Anthropic 的产品和研究主管 Dianne Penn 在接受 VentureBeat 采访时表示,目标是让模型能够判断何时需要即时回答,何时需要更深入的思考。
"模型本身应该能识别何时需要更深入的思考并作出调整,而不是要求用户明确选择不同的推理模式,"她说。
Claude 3.7 Sonnet 的另一个亮点是它会通过"可视化草稿本"展示其内部思考过程。Penn 表示,用户可以看到大多数提示的完整思维链,但在某些情况下,出于信任和安全考虑,可能会隐藏某些元素。
在性能方面,Claude 3.7 Sonnet 与竞争对手相比表现出色,在真实世界编程基准测试 SWE-Bench 上得分为 62.3%,而 OpenAI 的 o3-mini 为 49.3%,DeepSeek R1 为 49.2%。
在另一项用于衡量其与模拟用户和外部应用程序接口交互能力的测试 TAU-Bench 中,Claude 3.7 Sonnet 得分为 81.2%,超过了 OpenAI o1 模型的 73.5%。
该公司补充说,Claude 3.7 Sonnet 还将回答更多问题,减少拒绝回应的情况。这是因为它能够更好地区分良性和有害的提示。
编程模型和更多资金即将到来
除了推理模型外,Anthropic 还推出了一个名为 Claude Code 的新模型,目前作为研究预览版提供,更专注于编程任务。
在演示中,该公司展示了 Claude Code 如何通过单个提示(如"解释这个项目结构")分析开发项目。它还使开发者能够通过输入描述如何修改代码的普通英语提示来修改代码库。完成更改后,它会描述所做的编辑,然后测试错误或将更新推送到 GitHub 仓库。
该公司表示,Claude Code 目前向有限数量的用户开放测试,采用先到先得的原则提供访问权限,因此想要尝试的开发者不应该延迟。
今天宣布的新模型代表着 Anthropic 的一个重要突破,而且可能很快会有更多进展。据《华尔街日报》今天的另一份报道称,该公司正在就 35 亿美元的融资轮进行深入谈判。
这个金额显著高于最初计划募集的 20 亿美元,据《华尔街日报》援引两位知情匿名消息源称,这将使该创业公司的估值达到约 615 亿美元。据称 Lightspeed Venture Partners 将领投此轮融资,General Catalyst 和其他多家机构也将参与。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。