Tenstorrent于周二宣布其Galaxy Blackhole AI计算平台正式面向公众开放。
这家初创公司推出的6U服务器系统,每台搭载32块Blackhole加速芯片,芯片之间通过高密度以太网网格互联,总计提供100 Tbps的聚合带宽。
据Tenstorrent介绍,每套Galaxy系统具备1 TB GDDR6显存、16 TB/s内存带宽以及23 petaFLOPS的FP8稠密浮点运算性能,售价仅为11万美元。
与之相比,英伟达的八路DGX服务器虽然性能更强、容量更大,但售价约为前者的三至五倍。
Tenstorrent的网格架构并不局限于单节点扩展。与谷歌TPU或亚马逊Trainium2集群的思路类似,该架构可通过增加节点数量、灵活调整张量并行与流水线并行的比例,来支持更大规模的模型运行、提升整体吞吐量,或优化交互式用户体验。
Tenstorrent的基础款Galaxy超级集群售价为44万美元,内含四套Blackhole系统,但整体架构最高可扩展至32个节点,芯片总数超过一千块。
Tenstorrent高级研究员贾斯米娜·瓦西列维奇(Jasmina Vasiljevic)表示,自媒体首次上手测试该硬件以来,软件栈已得到大幅改进。当时模型支持范围十分有限,已运行的模型也尚未针对硬件进行专项优化,这一差距导致测试中的性能扩展表现普遍不佳。
她表示,上述问题目前已基本解决。尽管几个月前曾对芯片性能进行过一次下调,团队仍投入了大量精力,不仅移植了更多新模型,还持续提升了整体运行性能。
以DeepSeek V3为例,Tenstorrent声称其四节点Blackhole Galaxy超级集群能够在不到四秒的时间内处理完一个包含10万个Token的提示词,相当于约166页的文本内容。
据悉,该系统目前每用户每秒可输出多达300个Token,并预计通过近期的软件优化将这一数字提升至350个。
值得注意的是,Tenstorrent并未披露上述测试所采用的批处理大小,而这一指标对于评估AI系统在生产环境中的扩展能力至关重要。单用户达到每秒350个Token的性能表现,与将该性能扩展至32或64个并发用户相比,意义相差甚远。
对此,Tenstorrent表示,其平台可根据吞吐量和交互性需求,有效支持从批量8到批量64的弹性扩展。
除大语言模型外,Tenstorrent还将Galaxy Blackhole定位为视频生成的理想平台。该公司表示,在四节点超级集群上,可以实现超实时速度生成720p视频。
瓦西列维奇还透露,团队正在推进对更多前沿模型的支持,包括月之暗面的Kimi K2,并已开发出一套基于Python的编程接口,用于编写优化内核,以持续将新模型引入该平台。
Tenstorrent在发布声明中表示:"来自Hugging Face的90%的模型可以直接在Tenstorrent平台上运行。"这是一个颇具分量的声明,值得进一步实测验证。
如果您希望在购买前先行体验,Tenstorrent的硬件已被多家大型数据中心、主机托管商及新兴云服务商采用,合作方包括Cirrascale、Equinix以及日本的ai&等。预计该芯片初创公司将在5月1日举办的TT-Deploy活动上发布更多相关信息。
Q&A
Q1:Tenstorrent Galaxy Blackhole的售价是多少?性能如何?
A:Tenstorrent Galaxy Blackhole单套系统售价为11万美元,配备32块Blackhole加速芯片,提供1 TB GDDR6显存、16 TB/s内存带宽及23 petaFLOPS的FP8稠密浮点运算性能。相比之下,英伟达DGX服务器性能更强但售价是其三至五倍,Galaxy Blackhole在性价比上具有一定优势。
Q2:Tenstorrent Galaxy Blackhole处理大语言模型的速度怎么样?
A:以DeepSeek V3为例,四节点Blackhole Galaxy超级集群可在不到四秒内处理完10万个Token的提示词(约166页文本)。每用户每秒可输出300个Token,并计划通过软件优化提升至350个Token。平台支持从批量8到批量64的弹性扩展,可满足不同吞吐量和交互需求。
Q3:Tenstorrent Galaxy Blackhole除了支持大语言模型,还能做什么?
A:除大语言模型推理外,Galaxy Blackhole还被定位为视频生成平台,四节点超级集群可实现超实时速度生成720p视频。此外,该平台兼容Hugging Face上90%的模型,并持续扩展对Kimi K2等前沿模型的支持,同时提供基于Python的编程接口供开发者编写优化内核。
好文章,需要你的鼓励
今天讲的出海案例是依米康,这家数据中心温控与液冷设备厂商正在把泰国纳入海外交付体系,并用生产线、总装车间和焓差实验室承接算力设施订单。
BioMatrix是首个将分子序列、分子三维结构、蛋白质序列、蛋白质三维结构和自然语言统一在单一语言模型中的生物基础模型,在80项任务中77项达到最优或第二优。
Salesforce正式推出Help Agent,这是基于Agentforce平台的预封装AI客服智能体,可在数分钟内连接企业知识库、操作功能及网页、短信、语音等沟通渠道。该产品同步推出按解决率计费模式,每次成功自主解决客户问题收费2美元,无需按token或操作次数计费。Help Agent支持低代码构建,内置测试功能,并配备全新客户服务门户。该产品预计于2026年7月正式上线。
浙江大学提出SKILLHARNESS框架,通过为AI电脑助手的每项技能附加安全边界,从成功、失败和风险三类经历中学习,使AI在动态危险环境中安全高效地完成任务。