Tenstorrent Galaxy Blackhole AI计算平台正式发布,售价11万美元

Tenstorrent正式推出Galaxy Blackhole AI计算平台。每套6U系统搭载32块Blackhole加速芯片,通过100 Tbps以太网互联,提供1TB GDDR6显存、16 TB/s内存带宽及23 petaFLOPS FP8算力,售价11万美元,仅为英伟达同类产品的五分之一。四节点超级集群售价44万美元,最多可扩展至32节点、逾千块芯片。官方称其在DeepSeek V3测试中可在4秒内处理10万token,视频生成速度超实时。平台已获Equinix等多家数据中心服务商采用。

Tenstorrent于周二宣布其Galaxy Blackhole AI计算平台正式面向公众开放。

这家初创公司推出的6U服务器系统,每台搭载32块Blackhole加速芯片,芯片之间通过高密度以太网网格互联,总计提供100 Tbps的聚合带宽。

据Tenstorrent介绍,每套Galaxy系统具备1 TB GDDR6显存、16 TB/s内存带宽以及23 petaFLOPS的FP8稠密浮点运算性能,售价仅为11万美元。

与之相比,英伟达的八路DGX服务器虽然性能更强、容量更大,但售价约为前者的三至五倍。

Tenstorrent的网格架构并不局限于单节点扩展。与谷歌TPU或亚马逊Trainium2集群的思路类似,该架构可通过增加节点数量、灵活调整张量并行与流水线并行的比例,来支持更大规模的模型运行、提升整体吞吐量,或优化交互式用户体验。

Tenstorrent的基础款Galaxy超级集群售价为44万美元,内含四套Blackhole系统,但整体架构最高可扩展至32个节点,芯片总数超过一千块。

Tenstorrent高级研究员贾斯米娜·瓦西列维奇(Jasmina Vasiljevic)表示,自媒体首次上手测试该硬件以来,软件栈已得到大幅改进。当时模型支持范围十分有限,已运行的模型也尚未针对硬件进行专项优化,这一差距导致测试中的性能扩展表现普遍不佳。

她表示,上述问题目前已基本解决。尽管几个月前曾对芯片性能进行过一次下调,团队仍投入了大量精力,不仅移植了更多新模型,还持续提升了整体运行性能。

以DeepSeek V3为例,Tenstorrent声称其四节点Blackhole Galaxy超级集群能够在不到四秒的时间内处理完一个包含10万个Token的提示词,相当于约166页的文本内容。

据悉,该系统目前每用户每秒可输出多达300个Token,并预计通过近期的软件优化将这一数字提升至350个。

值得注意的是,Tenstorrent并未披露上述测试所采用的批处理大小,而这一指标对于评估AI系统在生产环境中的扩展能力至关重要。单用户达到每秒350个Token的性能表现,与将该性能扩展至32或64个并发用户相比,意义相差甚远。

对此,Tenstorrent表示,其平台可根据吞吐量和交互性需求,有效支持从批量8到批量64的弹性扩展。

除大语言模型外,Tenstorrent还将Galaxy Blackhole定位为视频生成的理想平台。该公司表示,在四节点超级集群上,可以实现超实时速度生成720p视频。

瓦西列维奇还透露,团队正在推进对更多前沿模型的支持,包括月之暗面的Kimi K2,并已开发出一套基于Python的编程接口,用于编写优化内核,以持续将新模型引入该平台。

Tenstorrent在发布声明中表示:"来自Hugging Face的90%的模型可以直接在Tenstorrent平台上运行。"这是一个颇具分量的声明,值得进一步实测验证。

如果您希望在购买前先行体验,Tenstorrent的硬件已被多家大型数据中心、主机托管商及新兴云服务商采用,合作方包括Cirrascale、Equinix以及日本的ai&等。预计该芯片初创公司将在5月1日举办的TT-Deploy活动上发布更多相关信息。

Q&A

Q1:Tenstorrent Galaxy Blackhole的售价是多少?性能如何?

A:Tenstorrent Galaxy Blackhole单套系统售价为11万美元,配备32块Blackhole加速芯片,提供1 TB GDDR6显存、16 TB/s内存带宽及23 petaFLOPS的FP8稠密浮点运算性能。相比之下,英伟达DGX服务器性能更强但售价是其三至五倍,Galaxy Blackhole在性价比上具有一定优势。

Q2:Tenstorrent Galaxy Blackhole处理大语言模型的速度怎么样?

A:以DeepSeek V3为例,四节点Blackhole Galaxy超级集群可在不到四秒内处理完10万个Token的提示词(约166页文本)。每用户每秒可输出300个Token,并计划通过软件优化提升至350个Token。平台支持从批量8到批量64的弹性扩展,可满足不同吞吐量和交互需求。

Q3:Tenstorrent Galaxy Blackhole除了支持大语言模型,还能做什么?

A:除大语言模型推理外,Galaxy Blackhole还被定位为视频生成平台,四节点超级集群可实现超实时速度生成720p视频。此外,该平台兼容Hugging Face上90%的模型,并持续扩展对Kimi K2等前沿模型的支持,同时提供基于Python的编程接口供开发者编写优化内核。

来源:The Register

0赞

好文章,需要你的鼓励

2026

04/28

22:30

分享

点赞

邮件订阅