随着 DeepSeek-R1 的出现,业界最初普遍担心先进的推理能力可以通过更少的基础设施实现。然而事实证明并非如此。至少根据 Together AI 的观点,DeepSeek 和开源推理的兴起产生了完全相反的效果:它不是减少而是增加了对基础设施的需求。
这种需求的增长推动了 Together AI 平台和业务的发展。今天该公司宣布完成由 General Catalyst 领投、Prosperity7 联合领投的 3.05 亿美元 B 轮融资。Together AI 于 2023 年成立,旨在简化企业使用开源大语言模型 (LLM)。该公司在 2024 年推出了 Together 企业平台,支持在虚拟私有云 (VPC) 和本地环境中部署 AI。到 2025 年,Together AI 将再次扩展其平台,增加推理集群和智能代理 AI 功能。
该公司表示,其 AI 部署平台已有超过 45 万注册开发者,业务整体同比增长 6 倍。公司客户包括企业以及 Krea AI、Captions 和 Pika Labs 等 AI 初创公司。
Together AI 的 CEO Vipul Prakash 对 VentureBeat 表示:"我们现在正在为所有模态提供服务:语言、推理、图像、音频和视频。"
DeepSeek-R1 对 AI 基础设施需求的巨大影响
DeepSeek-R1 首次亮相时具有颠覆性,原因之一是它暗示领先的开源推理模型可以用比专有模型更少的基础设施构建和部署。
然而,Prakash 解释说,Together AI 扩展其基础设施部分是为了支持 DeepSeek-R1 相关工作负载的增长需求。
"运行推理的成本相当高," 他说。"它有 6710 亿个参数,需要分布在多个服务器上。由于质量更高,高端需求通常更大,这意味着需要更多容量。"
此外,他指出 DeepSeek-R1 通常有持续 2-3 分钟的长期请求。用户对 DeepSeek-R1 的巨大需求进一步推动了对更多基础设施的需求。
为满足这一需求,Together AI 推出了名为"推理集群"的服务,提供从 128 到 2000 个芯片的专用容量,以最佳性能运行模型。
Together AI 如何帮助组织使用推理 AI
Together AI 在多个具体领域看到推理模型的应用:
编码代理: 推理模型帮助将大问题分解为步骤。
减少幻觉: 推理过程有助于验证模型输出,从而减少幻觉,这对需要准确性的应用至关重要。
改进非推理模型: 客户正在提炼和改进非推理模型的质量。
实现自我改进: 将强化学习与推理模型结合使用,使模型能够递归地自我改进,而无需依赖大量人工标注数据。
智能代理 AI 也推动 AI 基础设施需求增长
Together AI 还发现,随着用户采用智能代理 AI,基础设施需求也在增加。
Prakash 解释说,在智能代理工作流程中,单个用户请求会产生数千个 API 调用来完成任务,这给 Together AI 的基础设施带来了更多计算需求。
为支持智能代理 AI 工作负载,Together AI 最近收购了 CodeSandbox,其技术提供轻量级、快速启动的虚拟机 (VM),可在 Together AI 云中执行任意的安全代码,语言模型也驻留在那里。这可以减少智能代理代码和需要调用的模型之间的延迟,提高智能代理工作流程的性能。
Nvidia Blackwell 已产生影响,所有 AI 平台都面临需求增长。
这就是为什么 Nvidia 不断推出提供更高性能的新芯片的原因之一。Nvidia 最新的产品芯片是 Blackwell GPU,目前正在 Together AI 部署。
Prakash 表示,Nvidia Blackwell 芯片比上一代贵约 25%,但性能提升了 2 倍。配备 Blackwell 芯片的 GB 200 平台特别适合训练和推理专家混合 (MoE) 模型,这些模型跨多个 InfiniBand 连接的服务器进行训练。他指出,与小型模型相比,Blackwell 芯片预计将为大型模型的推理提供更大的性能提升。
智能代理 AI 的竞争格局
AI 基础设施平台市场竞争激烈。
Together AI 面临着来自成熟云服务提供商和 AI 基础设施初创公司的竞争。所有超大规模云服务商,包括 Microsoft、AWS 和 Google,都有 AI 平台。还有一类新兴的 AI 专注玩家,如 Groq 和 Samba Nova,都在争夺这个利润丰厚的市场。
Together AI 提供全栈解决方案,包括带有软件平台层的 GPU 基础设施。这使客户能够轻松使用开源模型或在 Together AI 平台上开发自己的模型。该公司还专注于研究开发优化和加速运行时,用于推理和训练。
"例如,我们服务的 DeepSeek-R1 模型速度为每秒 85 个 token,而 Azure 为每秒 7 个 token," Prakash 说。"在性能和成本方面,我们能够为客户提供的差距正在不断扩大。"
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。