人工智能模型开发公司 Anthropic PBC 推出了一款名为 Claude 3.7 Sonnet 的前沿模型,向 OpenAI、DeepSeek Ltd. 等业内公司发起了挑战。
与之前的模型不同,Claude 3.7 Sonnet 能够根据用户的要求,对问题进行任意时长的"思考"。根据其思考时间的长短,其回答可能会有很大的差异。
该公司表示,Claude 3.7 Sonnet 是首个"混合 AI 推理模型",因为它既可以实时回答,也可以根据需要生成经过深思熟虑的回答。用户可以选择何时激活其推理能力,并指定希望它思考问题的时长。
Claude 3.7 Sonnet 现已向所有用户开放,包括免费用户,但只有付费订阅用户才能使用其高级推理功能。免费用户只能使用实时版本,不过该公司表示这相比其前身 Claude 3.5 Sonnet 仍有所改进。
该公司表示,Claude 3.7 Sonnet 的收费标准为每百万输入 token 3 美元,这意味着你可以输入约 75 万字 (超过《指环王》三部曲的总字数) 只需 3 美元。输出则收取每百万 token 15 美元。
因此,Claude 3.7 Sonnet 的价格比 OpenAI 的 o3-mini 推理模型和 DeepSeek 的 R1 要贵,后两者的价格分别便宜约三倍和六倍。不过,Anthropic 的模型一直较为昂贵,用户使用 Claude 3.5 Sonnet 时支付的费率完全相同。所以他们无需额外付费就能获得新的推理功能。
Claude 3.7 Sonnet 是该公司首次尝试开发推理模型。与传统模型相比,推理模型需要更多的计算能力和更长的响应时间。它们的工作原理是将用户的问题或难题分解成一系列小步骤,分别考虑每个步骤后再整合回答,这种技术通常能产生更好的答案。
目前,用户需要自行选择 Claude 3.7 Sonnet 思考问题的时长。但在即将发布的更新中,该公司表示模型将能够自行确定最合适的思考时间,在成本和答案质量之间取得最佳平衡。
Anthropic 的产品和研究主管 Dianne Penn 在接受 VentureBeat 采访时表示,目标是让模型能够判断何时需要即时回答,何时需要更深入的思考。
"模型本身应该能识别何时需要更深入的思考并作出调整,而不是要求用户明确选择不同的推理模式,"她说。
Claude 3.7 Sonnet 的另一个亮点是它会通过"可视化草稿本"展示其内部思考过程。Penn 表示,用户可以看到大多数提示的完整思维链,但在某些情况下,出于信任和安全考虑,可能会隐藏某些元素。
在性能方面,Claude 3.7 Sonnet 与竞争对手相比表现出色,在真实世界编程基准测试 SWE-Bench 上得分为 62.3%,而 OpenAI 的 o3-mini 为 49.3%,DeepSeek R1 为 49.2%。
在另一项用于衡量其与模拟用户和外部应用程序接口交互能力的测试 TAU-Bench 中,Claude 3.7 Sonnet 得分为 81.2%,超过了 OpenAI o1 模型的 73.5%。
该公司补充说,Claude 3.7 Sonnet 还将回答更多问题,减少拒绝回应的情况。这是因为它能够更好地区分良性和有害的提示。
编程模型和更多资金即将到来
除了推理模型外,Anthropic 还推出了一个名为 Claude Code 的新模型,目前作为研究预览版提供,更专注于编程任务。
在演示中,该公司展示了 Claude Code 如何通过单个提示(如"解释这个项目结构")分析开发项目。它还使开发者能够通过输入描述如何修改代码的普通英语提示来修改代码库。完成更改后,它会描述所做的编辑,然后测试错误或将更新推送到 GitHub 仓库。
该公司表示,Claude Code 目前向有限数量的用户开放测试,采用先到先得的原则提供访问权限,因此想要尝试的开发者不应该延迟。
今天宣布的新模型代表着 Anthropic 的一个重要突破,而且可能很快会有更多进展。据《华尔街日报》今天的另一份报道称,该公司正在就 35 亿美元的融资轮进行深入谈判。
这个金额显著高于最初计划募集的 20 亿美元,据《华尔街日报》援引两位知情匿名消息源称,这将使该创业公司的估值达到约 615 亿美元。据称 Lightspeed Venture Partners 将领投此轮融资,General Catalyst 和其他多家机构也将参与。
好文章,需要你的鼓励
惠普企业(HPE)发布搭载英伟达Blackwell架构GPU的新服务器,抢占AI技术需求激增市场。IDC预测,搭载GPU的服务器年增长率将达46.7%,占总市场价值近50%。2025年服务器市场预计增长39.9%至2839亿美元。英伟达向微软等大型云服务商大量供应Blackwell GPU,每周部署约7.2万块,可能影响HPE服务器交付时间。HPE在全球服务器市场占13%份额。受美国出口限制影响,国际客户可能面临额外限制。新服务器将于2025年9月2日开始全球发货。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
安全专业协会ISACA面向全球近20万名认证安全专业人员推出AI安全管理高级认证(AAISM)。研究显示61%的安全专业人员担心生成式AI被威胁行为者利用。该认证涵盖AI治理与项目管理、风险管理、技术与控制三个领域,帮助网络安全专业人员掌握AI安全实施、政策制定和风险管控。申请者需持有CISM或CISSP认证。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。