随着 DeepSeek-R1 的出现,业界最初普遍担心先进的推理能力可以通过更少的基础设施实现。然而事实证明并非如此。至少根据 Together AI 的观点,DeepSeek 和开源推理的兴起产生了完全相反的效果:它不是减少而是增加了对基础设施的需求。
这种需求的增长推动了 Together AI 平台和业务的发展。今天该公司宣布完成由 General Catalyst 领投、Prosperity7 联合领投的 3.05 亿美元 B 轮融资。Together AI 于 2023 年成立,旨在简化企业使用开源大语言模型 (LLM)。该公司在 2024 年推出了 Together 企业平台,支持在虚拟私有云 (VPC) 和本地环境中部署 AI。到 2025 年,Together AI 将再次扩展其平台,增加推理集群和智能代理 AI 功能。
该公司表示,其 AI 部署平台已有超过 45 万注册开发者,业务整体同比增长 6 倍。公司客户包括企业以及 Krea AI、Captions 和 Pika Labs 等 AI 初创公司。
Together AI 的 CEO Vipul Prakash 对 VentureBeat 表示:"我们现在正在为所有模态提供服务:语言、推理、图像、音频和视频。"
DeepSeek-R1 对 AI 基础设施需求的巨大影响
DeepSeek-R1 首次亮相时具有颠覆性,原因之一是它暗示领先的开源推理模型可以用比专有模型更少的基础设施构建和部署。
然而,Prakash 解释说,Together AI 扩展其基础设施部分是为了支持 DeepSeek-R1 相关工作负载的增长需求。
"运行推理的成本相当高," 他说。"它有 6710 亿个参数,需要分布在多个服务器上。由于质量更高,高端需求通常更大,这意味着需要更多容量。"
此外,他指出 DeepSeek-R1 通常有持续 2-3 分钟的长期请求。用户对 DeepSeek-R1 的巨大需求进一步推动了对更多基础设施的需求。
为满足这一需求,Together AI 推出了名为"推理集群"的服务,提供从 128 到 2000 个芯片的专用容量,以最佳性能运行模型。
Together AI 如何帮助组织使用推理 AI
Together AI 在多个具体领域看到推理模型的应用:
编码代理: 推理模型帮助将大问题分解为步骤。
减少幻觉: 推理过程有助于验证模型输出,从而减少幻觉,这对需要准确性的应用至关重要。
改进非推理模型: 客户正在提炼和改进非推理模型的质量。
实现自我改进: 将强化学习与推理模型结合使用,使模型能够递归地自我改进,而无需依赖大量人工标注数据。
智能代理 AI 也推动 AI 基础设施需求增长
Together AI 还发现,随着用户采用智能代理 AI,基础设施需求也在增加。
Prakash 解释说,在智能代理工作流程中,单个用户请求会产生数千个 API 调用来完成任务,这给 Together AI 的基础设施带来了更多计算需求。
为支持智能代理 AI 工作负载,Together AI 最近收购了 CodeSandbox,其技术提供轻量级、快速启动的虚拟机 (VM),可在 Together AI 云中执行任意的安全代码,语言模型也驻留在那里。这可以减少智能代理代码和需要调用的模型之间的延迟,提高智能代理工作流程的性能。
Nvidia Blackwell 已产生影响,所有 AI 平台都面临需求增长。
这就是为什么 Nvidia 不断推出提供更高性能的新芯片的原因之一。Nvidia 最新的产品芯片是 Blackwell GPU,目前正在 Together AI 部署。
Prakash 表示,Nvidia Blackwell 芯片比上一代贵约 25%,但性能提升了 2 倍。配备 Blackwell 芯片的 GB 200 平台特别适合训练和推理专家混合 (MoE) 模型,这些模型跨多个 InfiniBand 连接的服务器进行训练。他指出,与小型模型相比,Blackwell 芯片预计将为大型模型的推理提供更大的性能提升。
智能代理 AI 的竞争格局
AI 基础设施平台市场竞争激烈。
Together AI 面临着来自成熟云服务提供商和 AI 基础设施初创公司的竞争。所有超大规模云服务商,包括 Microsoft、AWS 和 Google,都有 AI 平台。还有一类新兴的 AI 专注玩家,如 Groq 和 Samba Nova,都在争夺这个利润丰厚的市场。
Together AI 提供全栈解决方案,包括带有软件平台层的 GPU 基础设施。这使客户能够轻松使用开源模型或在 Together AI 平台上开发自己的模型。该公司还专注于研究开发优化和加速运行时,用于推理和训练。
"例如,我们服务的 DeepSeek-R1 模型速度为每秒 85 个 token,而 Azure 为每秒 7 个 token," Prakash 说。"在性能和成本方面,我们能够为客户提供的差距正在不断扩大。"
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
谷歌研究院开发的论文助手工具PAT,利用分阶段深度推理流水线自动审查学术论文,在真实错误检测任务上达到89.7%召回率,并已在STOC和ICML两大顶会完成超4700篇论文的真实部署。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港大学与武汉大学联合开发的EO-WM系统,将地球观测卫星图像预测重新定义为天气驱动的世界建模问题,通过把气象信号拆解为气候基线、天气异常和累积压力三层,显著提升了对极端干旱和热浪事件下植被退化的预测准确性。