据多家媒体报道,OpenAI 的竞争对手 Anthropic PBC 正寻求筹集高达 20 亿美元的新资金。
CNBC 和华尔街日报援引消息人士的话称,这轮投资可能使公司估值达到 600 亿美元。这比 Anthropic 去年在由 Menlo Ventures 领投的融资轮中获得的估值高出三倍多。据称,Lightspeed Venture Partners 正在领投公司的这轮最新融资。
Anthropic 开发了一系列名为 Claude 的大语言模型。今年 6 月,该公司发布了该系列中最先进的模型 Claude 3.5 Sonnet。两个月后,公司推出了该大语言模型的升级版,可以代表用户在应用程序中执行操作。
最新发布的 Claude 3.5 Sonnet 在衡量神经网络编程技能的基准测试 SWE-bench Verified 上得分为 49%。这比 6 月首次亮相的原始版本提高了近 16%。Claude 3.5 Sonnet 与功能较弱但更具成本效益的 Claude 3.5 Haiku 一起提供,后者在 SWE-bench Verified 上的得分为 40.6%。
Anthropic 通过应用程序接口提供其大语言模型。该公司还提供了一个名为 Claude Enterprise 的类似 ChatGPT 的聊天机器人。该服务可以根据用户提供的数据集生成代码、创建销售预测并执行其他业务任务。
CNBC 援引消息人士的话称,Anthropic 目前的年化经常性收入为 8.75 亿美元,主要来自与企业的交易。去年 9 月,路透社报道称,OpenAI 有望在 2024 年实现 37 亿美元的收入,并预计今年将达到 116 亿美元。CNBC 的消息人士没有具体说明 Anthropic 的增长速度。
在发布最新版本的 Claude 3.5 Sonnet 时,Anthropic 透露了未来推出更强大模型 Claude 3.5 Opus 的计划。它正在筹集的新资金可能有助于支持这一开发工作。
OpenAI 最新的推理模型基于一种称为测试时计算的机器学习方法。它通过增加处理提示所使用的硬件数量来提高大语言模型的响应质量,这反过来又会提高推理成本。如果 Anthropic 决定在未来的大语言模型中实施测试时计算,它正在筹集的 20 亿美元可能会使其更容易承担相关成本。
据报道的这轮融资是继三轮数十亿美元投资之后的又一次融资。
2023 年,Anthropic 获得了来自 Google LLC 高达 20 亿美元的投资。同年晚些时候,亚马逊以 40 亿美元的价格收购了这家大语言模型开发商的股份。去年 11 月,作为协议的一部分,AWS 将其投资翻倍,同时成为 Anthropic 的主要 AI 训练基础设施合作伙伴。
OpenAI 去年以 1570 亿美元的估值完成了 66 亿美元的融资。它还从一群银行获得了 40 亿美元的信贷额度。另一家通用大语言模型领域的主要参与者 Cohere Inc. 此前从 Advanced Micro Devices Inc. 和其他投资者那里筹集了 5 亿美元。
好文章,需要你的鼓励
UniR(Universal Reasoner)是一种创新的推理增强方法,可为冻结的大语言模型提供即插即用的推理能力。由韩国科学技术院研究团队开发,该方法将推理能力分解为独立的轻量级模块,无需改变主模型结构。UniR的核心优势在于高效训练(仅更新小型推理模块)、出色的模型间迁移能力(小模型可指导大模型)以及模块组合能力(多个专用模块可通过logits相加组合使用)。在数学推理和翻译测试中,UniR显著超越现有微调方法,展示了轻量级模块如何有效增强大语言模型的推理能力。
Nebius团队开发了SWE-rebench,一个自动化管道用于从GitHub收集软件工程任务并进行去污染评估。该系统解决了两大挑战:高质量训练数据稀缺和评估基准容易被污染。通过四阶段处理(初步收集、自动安装配置、执行验证和质量评估),SWE-rebench构建了包含超过21,000个Python交互式任务的数据集,并提供持续更新的评估基准。研究发现部分语言模型在传统基准上的表现可能被污染效应夸大,而DeepSeek模型在开源模型中表现最为稳健。
这项研究提出了JQL(发音为"Jackal"),一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题:先由人类评估内容教育价值创建基准数据,然后评估大型语言模型作为"评判者"的能力,接着将这些能力提炼到轻量级评估器中,最后应用于大规模数据筛选。实验表明,JQL在35种语言上显著优于现有方法,甚至能泛化到未见过的语言如阿拉伯语和中文,为多语言AI发展提供了高效可靠的数据筛选方案。
浙江大学和西湖大学研究团队开发的Styl3R实现了艺术风格化3D重建的重大突破,能在不到一秒内从少量未标定照片和任意风格图像创建具有多视角一致性的3D艺术场景。通过创新的双分支网络架构将结构建模与外观着色分离,系统不仅保持了原始场景结构,还准确捕捉了参考风格特征。与现有方法相比,Styl3R在处理速度和视觉质量上均显著领先,为创意内容制作开辟了全新可能。