Tenstorrent于周二宣布其Galaxy Blackhole AI计算平台正式面向公众开放。
这家初创公司推出的6U服务器系统,每台搭载32块Blackhole加速芯片,芯片之间通过高密度以太网网格互联,总计提供100 Tbps的聚合带宽。
据Tenstorrent介绍,每套Galaxy系统具备1 TB GDDR6显存、16 TB/s内存带宽以及23 petaFLOPS的FP8稠密浮点运算性能,售价仅为11万美元。
与之相比,英伟达的八路DGX服务器虽然性能更强、容量更大,但售价约为前者的三至五倍。
Tenstorrent的网格架构并不局限于单节点扩展。与谷歌TPU或亚马逊Trainium2集群的思路类似,该架构可通过增加节点数量、灵活调整张量并行与流水线并行的比例,来支持更大规模的模型运行、提升整体吞吐量,或优化交互式用户体验。
Tenstorrent的基础款Galaxy超级集群售价为44万美元,内含四套Blackhole系统,但整体架构最高可扩展至32个节点,芯片总数超过一千块。
Tenstorrent高级研究员贾斯米娜·瓦西列维奇(Jasmina Vasiljevic)表示,自媒体首次上手测试该硬件以来,软件栈已得到大幅改进。当时模型支持范围十分有限,已运行的模型也尚未针对硬件进行专项优化,这一差距导致测试中的性能扩展表现普遍不佳。
她表示,上述问题目前已基本解决。尽管几个月前曾对芯片性能进行过一次下调,团队仍投入了大量精力,不仅移植了更多新模型,还持续提升了整体运行性能。
以DeepSeek V3为例,Tenstorrent声称其四节点Blackhole Galaxy超级集群能够在不到四秒的时间内处理完一个包含10万个Token的提示词,相当于约166页的文本内容。
据悉,该系统目前每用户每秒可输出多达300个Token,并预计通过近期的软件优化将这一数字提升至350个。
值得注意的是,Tenstorrent并未披露上述测试所采用的批处理大小,而这一指标对于评估AI系统在生产环境中的扩展能力至关重要。单用户达到每秒350个Token的性能表现,与将该性能扩展至32或64个并发用户相比,意义相差甚远。
对此,Tenstorrent表示,其平台可根据吞吐量和交互性需求,有效支持从批量8到批量64的弹性扩展。
除大语言模型外,Tenstorrent还将Galaxy Blackhole定位为视频生成的理想平台。该公司表示,在四节点超级集群上,可以实现超实时速度生成720p视频。
瓦西列维奇还透露,团队正在推进对更多前沿模型的支持,包括月之暗面的Kimi K2,并已开发出一套基于Python的编程接口,用于编写优化内核,以持续将新模型引入该平台。
Tenstorrent在发布声明中表示:"来自Hugging Face的90%的模型可以直接在Tenstorrent平台上运行。"这是一个颇具分量的声明,值得进一步实测验证。
如果您希望在购买前先行体验,Tenstorrent的硬件已被多家大型数据中心、主机托管商及新兴云服务商采用,合作方包括Cirrascale、Equinix以及日本的ai&等。预计该芯片初创公司将在5月1日举办的TT-Deploy活动上发布更多相关信息。
Q&A
Q1:Tenstorrent Galaxy Blackhole的售价是多少?性能如何?
A:Tenstorrent Galaxy Blackhole单套系统售价为11万美元,配备32块Blackhole加速芯片,提供1 TB GDDR6显存、16 TB/s内存带宽及23 petaFLOPS的FP8稠密浮点运算性能。相比之下,英伟达DGX服务器性能更强但售价是其三至五倍,Galaxy Blackhole在性价比上具有一定优势。
Q2:Tenstorrent Galaxy Blackhole处理大语言模型的速度怎么样?
A:以DeepSeek V3为例,四节点Blackhole Galaxy超级集群可在不到四秒内处理完10万个Token的提示词(约166页文本)。每用户每秒可输出300个Token,并计划通过软件优化提升至350个Token。平台支持从批量8到批量64的弹性扩展,可满足不同吞吐量和交互需求。
Q3:Tenstorrent Galaxy Blackhole除了支持大语言模型,还能做什么?
A:除大语言模型推理外,Galaxy Blackhole还被定位为视频生成平台,四节点超级集群可实现超实时速度生成720p视频。此外,该平台兼容Hugging Face上90%的模型,并持续扩展对Kimi K2等前沿模型的支持,同时提供基于Python的编程接口供开发者编写优化内核。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。