据华尔街日报报道,OpenAI 正寻求以 3400 亿美元的估值融资高达 400 亿美元。
软银集团预计将领投此轮融资。据报道,这家日本科技集团可能投资 150 亿至 250 亿美元。据华尔街日报称,软银还在帮助这家 ChatGPT 开发商寻找其他可能有意参与交易的投资者。
这份报告发布于软银三个月前参与的一轮融资之后,当时 OpenAI 以 1570 亿美元的估值融资 66 亿美元。软银reportedly 准备以明显更高的估值再次投资,这表明其对 OpenAI 的增长前景持乐观态度。去年 9 月,纽约时报报道称,这家 ChatGPT 开发商预计在 2024 年底实现 37 亿美元收入,并期望在 2029 年达到 1000 亿美元。
尽管 OpenAI 的营收增长迅速,但目前仍未盈利。华尔街日报报道称,公司此次融资的部分资金将用于支持其亏损的业务运营。
这轮融资还将用于支持 Project Stargate,这是 OpenAI 上周在白宫宣布的一项基础设施计划。该公司计划与软银、Oracle 公司和投资公司 MGX 合作,在美国建设人工智能数据中心网络。该项目预计耗资高达 5000 亿美元。
据 The Information 上周报道,OpenAI 和软银各自承诺为该计划投入约 190 亿美元。据英国金融时报报道的消息来源称,这些公司计划通过向"现有投资者"募资以及债务融资来支付 AI 数据中心的其余成本。
本月早些时候,中国 AI 实验室 DeepSeek 开源了一个名为 R1 的大语言模型。该算法在多个基准测试中达到了与 OpenAI 的推理优化模型 o1 相当的性能。OpenAI 正在筹集的 400 亿美元可能使其更好地应对来自 DeepSeek 和其他竞争对手的挑战。
R1 的发布表明,预算明显较小的初创公司可能也能够匹敌 OpenAI 的前沿模型。在一篇学术论文中,DeepSeek 的研究人员详细说明,他们使用价值 560 万美元的显卡时间训练了 R1。这只是 OpenAI 据信在其大语言模型上投入的一小部分。
在 R1 发布后,OpenAI 承诺"将在未来推出更好的模型"。这轮传闻中的融资应该能让实现这一目标变得更容易。如果这笔投资成功,还将给 OpenAI 更多时间来找到盈利地提供 AI 服务的方法。
好文章,需要你的鼓励
UniR(Universal Reasoner)是一种创新的推理增强方法,可为冻结的大语言模型提供即插即用的推理能力。由韩国科学技术院研究团队开发,该方法将推理能力分解为独立的轻量级模块,无需改变主模型结构。UniR的核心优势在于高效训练(仅更新小型推理模块)、出色的模型间迁移能力(小模型可指导大模型)以及模块组合能力(多个专用模块可通过logits相加组合使用)。在数学推理和翻译测试中,UniR显著超越现有微调方法,展示了轻量级模块如何有效增强大语言模型的推理能力。
Nebius团队开发了SWE-rebench,一个自动化管道用于从GitHub收集软件工程任务并进行去污染评估。该系统解决了两大挑战:高质量训练数据稀缺和评估基准容易被污染。通过四阶段处理(初步收集、自动安装配置、执行验证和质量评估),SWE-rebench构建了包含超过21,000个Python交互式任务的数据集,并提供持续更新的评估基准。研究发现部分语言模型在传统基准上的表现可能被污染效应夸大,而DeepSeek模型在开源模型中表现最为稳健。
这项研究提出了JQL(发音为"Jackal"),一种通过多语言方法提升大型语言模型预训练数据质量的创新系统。研究团队从拉马尔研究所等机构通过四阶段方法解决了多语言数据筛选的难题:先由人类评估内容教育价值创建基准数据,然后评估大型语言模型作为"评判者"的能力,接着将这些能力提炼到轻量级评估器中,最后应用于大规模数据筛选。实验表明,JQL在35种语言上显著优于现有方法,甚至能泛化到未见过的语言如阿拉伯语和中文,为多语言AI发展提供了高效可靠的数据筛选方案。
浙江大学和西湖大学研究团队开发的Styl3R实现了艺术风格化3D重建的重大突破,能在不到一秒内从少量未标定照片和任意风格图像创建具有多视角一致性的3D艺术场景。通过创新的双分支网络架构将结构建模与外观着色分离,系统不仅保持了原始场景结构,还准确捕捉了参考风格特征。与现有方法相比,Styl3R在处理速度和视觉质量上均显著领先,为创意内容制作开辟了全新可能。