亚马逊云科技将为客户提供Cerebras Systems公司的WSE-3人工智能芯片。
两家公司今天宣布了这一合作计划。这是一项多年合作伙伴关系的一部分,AWS和Cerebras还将为AI推理工作负载开发"分离式架构"。该技术有望将AI模型生成输出的速度提高5倍。
Cerebras的WSE-3芯片包含90万个核心和44GB片上SRAM。该公司将处理器作为名为CS-3的水冷设备的一部分进行销售。该系统大约相当于一台迷你冰箱的大小,将1个WSE-3与外部内存、网络设备和其他辅助组件相结合。
新宣布的合作伙伴关系将看到AWS在其数据中心部署CS-3设备。这些系统将通过云巨头的AWS Bedrock服务向客户提供,该服务提供对内部开发和第三方基础模型的访问。CS-3使神经网络能够以每秒数千个Token的速度生成提示响应。
AWS和Cerebras正在开发的分离式架构将WSE-3与AWS Trainium相结合,后者是云巨头的定制AI芯片系列。集成的目标是加速客户的推理工作负载。
大语言模型通过将提示分割为称为Token的小数据单位来处理提示。每个Token包含几个字母或数字。大语言模型为提示中的每个Token生成三个称为键、值和查询的数学对象。这些对象帮助模型确定提示的哪些部分重要,哪些细节可以降低优先级。
大语言模型处理提示的过程被称为预填充阶段。接下来是解码阶段,此时模型生成对用户问题的答案。
预填充和解码任务通常由同一芯片执行。在AWS的分离式架构中,Trainium处理器将支持预填充阶段,而WSE-3将执行解码。
解码涉及与预填充阶段类似的一组计算,但需要显著更多的数据移动。信息定期在底层芯片的逻辑电路和内存之间传输。芯片移动信息的速度越快,生成提示响应的速度就越快。
WSE-3的主要卖点之一是它能够比许多其他芯片更快地在逻辑和内存电路之间移动数据。据Cerebras称,该处理器提供每秒27拍字节的内部内存带宽。这比英伟达公司NVLink显卡互连提供的带宽多200倍以上。
AWS将使用内部开发的网络设备弹性网络适配器(EFA)在其数据中心连接Trainium和WSE-3芯片。当数据包在芯片之间移动时,通常会通过主机服务器的操作系统。EFA跳过该步骤以加速连接并自动缓解网络拥塞。
Cerebras产品营销总监James Wang在博客文章中写道:"分离式架构非常适合大型、稳定的工作负载。大多数客户运行具有不同预填充/解码比率的混合工作负载,传统的聚合方法仍然是理想的。我们预计大多数客户都会希望访问两种方法。"
这一合作伙伴关系是在Cerebras赢得另一个备受瞩目的芯片供应交易几周后达成的。OpenAI Group PBC同意在2028年前从该公司购买价值750兆瓦的计算基础设施。据报道,这笔交易价值超过100亿美元,在两轮融资之间宣布,为Cerebras筹集了超过20亿美元。
该芯片制造商预计最早将在第二季度申请首次公开募股。与AWS和OpenAI的交易可能有助于增加投资者对上市的兴趣。
Q&A
Q1:AWS与Cerebras合作的WSE-3芯片有什么特点?
A:WSE-3芯片包含90万个核心和44GB片上SRAM,能够以每秒数千个Token的速度生成提示响应。它提供每秒27拍字节的内部内存带宽,比英伟达NVLink显卡互连的带宽多200倍以上,能够更快地在逻辑和内存电路之间移动数据。
Q2:什么是分离式架构?它如何提升AI推理性能?
A:分离式架构将Trainium处理器用于预填充阶段,WSE-3用于解码阶段,而不是由同一芯片执行两个任务。这种架构能够将AI模型生成输出的速度提高5倍,特别适合大型、稳定的工作负载。
Q3:Cerebras公司最近还签署了哪些重要合作?
A:除了与AWS的合作,Cerebras还与OpenAI签署了一项重大协议,OpenAI同意在2028年前购买价值750兆瓦的计算基础设施,据报道这笔交易价值超过100亿美元。该公司还在两轮融资中筹集了超过20亿美元。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。