据模拟测试显示,初创公司Tensordyne研发的新型AI芯片在推理任务的能耗效率与响应延迟方面,可能大幅领先市场龙头英伟达。该公司已完成首款芯片的流片送样,搭载72颗芯片的整机系统预计于2027年下半年正式开售。Tensordyne宣称,其72芯片系统运行大型大语言模型的速度是72颗英伟达GB300系统的4倍,功耗却仅为后者的五分之一。不过,这些数据要等到年底真实系统上线后才能得到验证。
Tensordyne新芯片Napier实现超高能效的核心秘诀,在于其执行AI核心运算——矩阵乘法的独特方式。该方案利用了对数运算的一个基本性质:log(A×B) = log(A) + log(B)。
"我们把乘法器变成了加法器,"Tensordyne联合创始人兼AI副总裁吉勒斯·巴克胡斯解释道。他表示,加法器比乘法器体积更小、能耗更低,因此Napier芯片能够在更小的面积内集成更强的算力,同时还能降低功耗。
这一思路在学界早已为人所知,但长期以来缺乏实用化的方法,因为在对数数值与描述神经网络的浮点数之间相互转换,不仅耗时耗能,还会引入过多误差。而巴克胡斯表示,这一难题现已迎刃而解。
"迄今为止,还没有人能像我们这样实现线性与对数之间的相互转换,这正是整件事的关键所在。我们的工程师找到了一种在硅芯片上极为优雅、精确且低成本的实现方式。"
数字格式的重要性早已引起AI行业的关注。英伟达首席科学家比尔·达利在2023年IEEE Hot Chips大会上发言时指出,当时英伟达GPU性能提升的主要驱动力,正是采用了更短的数字格式及其所需的更小电路。研究人员也在探索类对数格式(如posit)及其科学计算版本takum的计算电路,但由于其硬件实现与传统浮点运算差异较大,这些格式至今未能进入主流应用。
随着AI智能体的兴起,推理——即神经网络模型的执行——正变得比训练新大语言模型更为重要。成本与响应速度开始成为主导因素,这促使AI公司寻找更适合推理场景的系统架构。Tensordyne管理层表示,他们对这一趋势早有预判,并据此进行了针对性的系统设计。
执行大语言模型主要分为两个阶段:预填充(prefill)和解码(decode)。预填充阶段,模型将输入文本转化为Token,并构建一种称为键值缓存的工作记忆,这是一项计算密集型任务。解码阶段,大语言模型根据上一个Token及键值缓存逐步生成输出Token,这一顺序生成的特性使解码过程相对较慢,且对内存与网络延迟的依赖程度高于算力。
为此,AI芯片厂商开始针对这两种不同需求设计系统。英伟达推出了一种方案:用满载B300 GPU的服务器机架处理预填充,再用多个搭载Groq 3处理器的机架负责解码。亚马逊云服务则将自研Trainium AI芯片机架用于预填充,并结合多个Cerebras晶圆级计算机机架完成解码。
Tensordyne表示,其系统可同时胜任两项任务。"我们同时在攻克两个艰难的挑战,"Tensordyne首席产品官兼联合创始人R.K.阿南德说,"我们是第一家证明无需依赖多个供应商和多个机架就能同时完成两项任务的公司。"
预填充所需的密集算力来源于对数运算;解码所需的能力则依托144GB高带宽内存,以及一套延迟仅1微秒的自研互联网络——Tensordyne Napier Link。
在一个占用标准机架四分之一空间的"pod"系统中,Tensordyne集成了72颗Napier芯片、8颗英特尔至强CPU以及64TB固态存储。据该公司称,四个pod组成的完整机架在处理2万亿参数大语言模型时,每用户每秒可输出1300个Token,每百万Token的成本约为11美元,功耗为120千瓦,其中一个pod负责预填充,三个pod负责解码。相比之下,若要实现相近的每用户每秒Token数,九机架规模的Rubin与Groq 3组合系统功耗预计将高达1.5兆瓦。
上述数据是否真实可靠,有待年内进一步验证。Tensordyne计划通过云端提供测试版本,供客户提前体验,并预计在约一年后开始向客户批量交付系统。
Q&A
Q1:Tensordyne的Napier芯片是如何实现高能效的?
A:Napier芯片的核心创新在于利用对数运算代替传统矩阵乘法。由于log(A×B)=log(A)+log(B),乘法可以转换为加法运算,而加法器比乘法器体积更小、能耗更低。这使得Napier能在更小面积内集成更强算力,同时大幅降低功耗。Tensordyne表示,其工程师攻克了长期以来线性与对数数值相互转换精度差、效率低的难题,实现了在硅芯片上的高精度、低成本转换。
Q2:Tensordyne的72芯片系统和英伟达系统相比,性能差距有多大?
A:根据Tensordyne的模拟数据,其72芯片系统运行大型大语言模型的速度是同等规模英伟达GB300系统的4倍,功耗仅为后者的五分之一。在处理2万亿参数大语言模型时,四pod机架可实现每用户每秒1300个Token,功耗120千瓦,每百万Token成本约11美元;而实现相近性能的英伟达Rubin与Groq 3九机架系统,预计功耗高达1.5兆瓦。不过,这些数据目前仍来自模拟测试,需等真实系统上线后才能得到验证。
Q3:Tensordyne的系统何时可以商用?普通客户如何体验?
A:Tensordyne计划于2027年下半年正式开售搭载72颗Napier芯片的商用系统。在此之前,该公司预计将在约一年内开始向客户批量发货,并计划先通过云端提供测试版本,让客户提前上手体验和评估。目前,首款芯片已完成流片送样,正处于研发验证阶段。
好文章,需要你的鼓励
牛津大学提出PHYSIFORMER,一种扩散变换器模型,通过三维网格顶点轨迹直接在世界坐标空间预测刚性与弹性物体的物理运动,一次性生成全序列轨迹,超越自回归基线。
随着医疗数据数字化与互操作性的进步,跨机构纵向患者数据的研究应用成为可能。本研究通过对20位领域专家的访谈,识别出8种数据收集方法,涵盖智能手机应用、结构化数据导出、区域/全国研究查询及聚合数据源等。研究发现,各方法均有其优缺点,无单一最优方案。参与者中介交换方式可绕过复杂治理安排,但存在数据缺口;全国性网络尚不支持研究查询。公共政策的持续推进将对该领域发展起关键作用。
研究发现主流奖励模型对同等质量答案给出差异悬殊的分数,并提出"奖励聚类"算法通过蒙特卡洛随机失活将连续分数离散化,在不重训模型的前提下有效减少AI训练中的奖励作弊现象。