Meta Platforms公司今日宣布已设计出四款定制芯片,用于支持其内部人工智能工作负载。
该公司上次更新处理器开发进展是在2024年。当年4月,Meta发布了一款功耗为90瓦的定制AI加速器。而今天发布的四款加速器中最先进的一款热设计功耗达到1700瓦。
Meta在2024年4月发布的定制芯片MTIA 200专门用于运行排序和推荐模型。这些神经网络帮助Meta决定在用户信息流中显示哪些帖子和广告。
今天发布的第一款新芯片MTIA 300专注于相同的应用场景。该芯片在处理MX8格式数据时可提供1.2 petaflops的性能,配备216GB的HBM内存。
Meta工程师团队在今日的博客文章中写道:"MTIA 300包含一个计算芯片、两个网络芯片和多个HBM堆栈。每个计算芯片包含一个处理单元网格,并配有一些冗余处理单元以提高良品率。"
MTIA 300是四款新发布芯片中唯一已在生产环境中部署的产品。其他三款处理器支持更广泛的应用场景。除了排序和推荐工作负载外,它们还能运行生成式AI软件,如大语言模型。
产品线中最先进的MTIA 500芯片在处理MX8数据时可提供10 petaflops的性能。它还支持更高效的MX4数据格式。这项技术减少了AI模型回答提示时需要分析的字节数,从而加快处理速度。
MTIA 500使用四个逻辑芯片进行计算。这些模块被多个HBM内存堆栈环绕,总共可存储高达516GB的数据,是MTIA 300的两倍。该处理器的组件清单还包括一个SoC芯片,负责在主机服务器之间传输信息。
MTIA 500预计将于2027年投产,同时推出的还有功能相似但性能稍低的MTIA 450芯片。这两款处理器都针对生成式AI推理工作负载进行了优化。它们包含专门设计的电路,用于加速推理工作流程中特定的硬件密集型元素,如FlashAttention。这是一种流行的注意力机制实现方式,大语言模型用它来分析输入数据。
Meta工程师写道:"在系统层面,MTIA 400、450和500都使用相同的机箱、机架和网络基础设施。因此,每一代新芯片都可以直接替换到相同的物理空间中,加速从硅片到生产部署的过渡。我们的模块化、可重用设计还最大限度地减少了开发和部署多代芯片所需的资源。"
Meta使用定制编译器为其MTIA芯片优化AI模型。另一个定制软件模块Hoot集体通信库管理处理器之间的数据流。它使用位于内存单元附近的晶体管执行某些计算,减少数据传输时间,从而提升性能。
这些芯片的发布距离Meta同意从英伟达公司和超微半导体公司购买价值数十亿美元的处理器不到一个月。大约同一时间,消息人士告诉The Information,这家Facebook母公司还计划采用谷歌的TPU加速器。据报道,该公司将使用这些芯片来运行大语言模型。
Q&A
Q1:MTIA 500芯片有什么特殊性能?
A:MTIA 500是Meta最先进的AI芯片,在处理MX8数据时可提供10 petaflops的性能,还支持更高效的MX4数据格式。该芯片使用四个逻辑芯片进行计算,配备516GB的HBM内存,预计2027年投产。
Q2:Meta为什么要自研AI芯片?
A:Meta自研芯片主要用于支持内部人工智能工作负载,包括排序推荐模型和生成式AI软件如大语言模型。通过定制芯片,Meta可以更好地优化AI模型性能,减少对外部供应商的依赖。
Q3:MTIA芯片系列有哪些不同型号?
A:Meta发布了四款MTIA芯片:MTIA 200专门用于排序推荐,MTIA 300已投产并提供1.2 petaflops性能,MTIA 450和500都支持生成式AI推理,其中MTIA 500性能最强达10 petaflops。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。