Habana Labs凭什么“叫板”英伟达？原创

作者：高玉娴

面对人工智能芯片这样一个百亿级规模的市场，充满“野心”的企业不在少数，甚至有不少初后起之秀直接“叫板”英伟达。Habana Labs正是其中之一。

计算力的突破是引燃如今这一轮人工智能发展热潮的最关键因素。而这，也使得人工智能芯片领域近几年来逐渐成了群雄逐鹿的重要“战场”。虽然包括英特尔、谷歌、苹果、华为、百度等在内的国内外各大科技巨头不断涌入，但从AI推理预测到AI训练，截至目前，英伟达的地位似乎仍然难以被撼动。

即便如此，面对这样一个百亿级规模的市场，充满“野心”的企业还是不在少数，甚至有不少初后起之秀直接“叫板”英伟达。Habana Labs正是其中之一。

成立于2016年，Habana Labs最初的业务是开发专为深度神经网络训练和生产环境中的推理部署而优化的处理器平台。2018年，Habana Labs发布了第一款产品，即AI推理处理器「Goya」；9个月后，Habana Labs又宣布推出AI训练处理器「Gaudi」，不断完善自己的产品版图。

在本周的媒体沟通会上，Habana Labs首席商务官Eitan Medina介绍，其团队成员主要是来自处理器、DSP、系统设计以及网络设计等领域全球知名企业的精英，能够支持Habana Labs从软件到硬件的研发需求。同时，他还直接“放话”—— 要做人工智能芯片产业的领导者。而其底气，就是Goya和Gaudi两款产品。

Habana Labs首席商务官Eitan Medina

AI推理处理器「Goya」：强大性能与高性价比并存

据了解，Goya是一款基于PCle的双槽位处理器，可基于ResNet-50推理基准实现每秒15,000张图片的吞吐量，延迟时间仅为1.3毫秒, 功耗仅为100瓦。它主要用于传统服务器环境，提供推理和预测支持。

“这些数字与英伟达最新的GPU产品T4相比，性能上是其3倍，能耗上是其1/2，而延时也更低。可以说，我们几乎可以做到实时的图片处理。”Eitan Medina表示。

Goya与CPU、GPU在性能方面的对比

如何做到？Eitan Medina向记者解释，无论是GPU还是CPU，其架构都是面向通用计算或常用图形处理而设计的，因此在人工智能的计算工作中并不具备优势。而Goya则是完全针对人工智能需求进行的架构设计，这一独特架构称为“Tensor processor core”，能够让Goya支持不通的神经网络结构，进而处理不同的数据类型。这就是Goya能够提供如此高性价比的原因之一。

深度学习中Batch Size（批尺寸，即一次训练所选取的样本数）的大小直接会影响到处理器的性能。在GPU中，为了实现其最高性能，需要将这一数值设置得很大，大量数据在同一时间并行处理，这将无形造成计算的延迟。而Goya则可以将Batch Size设置为1，这意味着它可以一次处理1张图片，并且每秒钟处理超过7000张图片。这样的性能优势，使得它可以被应用于自动驾驶等对计算延迟要求极高的领域。

除此之外，在云计算场景中，Goya还可以做到多个用户共享单卡，从而降低用户的使用成本，让用户以更低价格享受更好的产品体验。

总的来说，Goya优势有三：一是强大的计算能力，二是高性价比，三是可以实现多用户之间的计算资源共享。“当然，基于ResNet-50的测试只是我们众多性能测试的其中之一，除此之外我们还做了很多比较通用的模型测试，可以看到，在这些测试中，Goya也表现出了强大的性能优势。”Eitan Medina 强调说。

据他介绍，Goya还为用户提供了一套名为Synapse AI的软件环境。SynapseAI软件栈包含一个丰富的内核库和开放工具链，以供用户添加专有内核。借此，用户不仅可以直接部署模型、进行定制化操作，同时还能帮助使用CPU和GPU的用户快速、轻松、准确地将之前的工作部署到Goya上。

AI训练处理器「Gaudi」：实现本地以太网扩展

再来看一下最新发布的人工智能训练处理器Gaudi。

Gaudi是一款完全可编程且可定制的处理器，搭载基于第二代Tensor处理核 (TPC™) 并集成开发工具、库和编译器。基于ResNet-50，Gaudi可以提供每秒1650张的图片处理能力——这是在业界单一处理器中最高的计算能力。同时，Gaudi的创新架构可以实现训练系统性能的近线性扩展，即使是在较小Batch Size的情况下，也能保持高计算力。这意味着，基于Gaudi处理器的训练性能可以实现从单一设备扩展至由数百个处理器搭建的大型系统的线性扩展。

还是和英伟达的V100相比，基于ResNet-50基准测试，Gaudi所表现出来的计算性能、功耗比和延迟时间仍然相当出色，在速度上要比V100快3.8倍。比如，在性能方面，V100单卡大概每秒处理600多张图片，而Gaudi单卡则可以处理1600多张；在功耗方面，V100处理600多张图片的功耗达到了300瓦，而Gaudi处理1600多张图片的功耗只有150瓦左右。在这方面，Gaudi创造了新的性能纪录。

Gaudi与V100在性能方面的对比

除了性能，Gaudi还创造了人工智能训练领域的另一项“行业第一”。其处理器片上集成了 RDMA over Converged Ethernet (RoCE v2) 功能，能够让人工智能系统使用标准以太网扩展至任何规模。借此，用户还可以利用标准以太网交换进行人工智能训练系统的纵向扩展和横向扩展。同时，以太网交换机已被数据中心应用于计算系统和存储系统的扩展中，在速度和端口数方面可提供几乎无限的可扩展性。在这一方面，与Habana的标准设计相比，基于GPU的系统则依赖于专有的系统接口，对系统设计人员来说，这从本质上已经大大限制了其可扩展性和选择性。