计算力的突破是引燃如今这一轮人工智能发展热潮的最关键因素。而这,也使得人工智能芯片领域近几年来逐渐成了群雄逐鹿的重要“战场”。虽然包括英特尔、谷歌、苹果、华为、百度等在内的国内外各大科技巨头不断涌入,但从AI推理预测到AI训练,截至目前,英伟达的地位似乎仍然难以被撼动。
即便如此,面对这样一个百亿级规模的市场,充满“野心”的企业还是不在少数,甚至有不少初后起之秀直接“叫板”英伟达。Habana Labs正是其中之一。
成立于2016年,Habana Labs最初的业务是开发专为深度神经网络训练和生产环境中的推理部署而优化的处理器平台。2018年,Habana Labs发布了第一款产品,即AI推理处理器「Goya」;9个月后,Habana Labs又宣布推出AI训练处理器「Gaudi」,不断完善自己的产品版图。
在本周的媒体沟通会上,Habana Labs首席商务官Eitan Medina介绍,其团队成员主要是来自处理器、DSP、系统设计以及网络设计等领域全球知名企业的精英,能够支持Habana Labs从软件到硬件的研发需求。同时,他还直接“放话”—— 要做人工智能芯片产业的领导者。而其底气,就是Goya和Gaudi两款产品。
Habana Labs首席商务官Eitan Medina
据了解,Goya是一款基于PCle的双槽位处理器,可基于ResNet-50推理基准实现每秒15,000张图片的吞吐量,延迟时间仅为1.3毫秒, 功耗仅为100瓦。它主要用于传统服务器环境,提供推理和预测支持。
“这些数字与英伟达最新的GPU产品T4相比,性能上是其3倍,能耗上是其1/2,而延时也更低。可以说,我们几乎可以做到实时的图片处理。”Eitan Medina表示。
如何做到?Eitan Medina向记者解释,无论是GPU还是CPU,其架构都是面向通用计算或常用图形处理而设计的,因此在人工智能的计算工作中并不具备优势。而Goya则是完全针对人工智能需求进行的架构设计,这一独特架构称为“Tensor processor core”,能够让Goya支持不通的神经网络结构,进而处理不同的数据类型。这就是Goya能够提供如此高性价比的原因之一。
深度学习中Batch Size(批尺寸,即一次训练所选取的样本数)的大小直接会影响到处理器的性能。在GPU中,为了实现其最高性能,需要将这一数值设置得很大,大量数据在同一时间并行处理,这将无形造成计算的延迟。而Goya则可以将Batch Size设置为1,这意味着它可以一次处理1张图片,并且每秒钟处理超过7000张图片。这样的性能优势,使得它可以被应用于自动驾驶等对计算延迟要求极高的领域。
除此之外,在云计算场景中,Goya还可以做到多个用户共享单卡,从而降低用户的使用成本,让用户以更低价格享受更好的产品体验。
总的来说,Goya优势有三:一是强大的计算能力,二是高性价比,三是可以实现多用户之间的计算资源共享。“当然,基于ResNet-50的测试只是我们众多性能测试的其中之一,除此之外我们还做了很多比较通用的模型测试,可以看到,在这些测试中,Goya也表现出了强大的性能优势。”Eitan Medina 强调说。
据他介绍,Goya还为用户提供了一套名为Synapse AI的软件环境。SynapseAI软件栈包含一个丰富的内核库和开放工具链,以供用户添加专有内核。借此,用户不仅可以直接部署模型、进行定制化操作,同时还能帮助使用CPU和GPU的用户快速、轻松、准确地将之前的工作部署到Goya上。
再来看一下最新发布的人工智能训练处理器Gaudi。
Gaudi是一款完全可编程且可定制的处理器,搭载基于第二代Tensor处理核 (TPC™) 并集成开发工具、库和编译器。基于ResNet-50,Gaudi可以提供每秒1650张的图片处理能力——这是在业界单一处理器中最高的计算能力。同时,Gaudi的创新架构可以实现训练系统性能的近线性扩展,即使是在较小Batch Size的情况下,也能保持高计算力。这意味着,基于Gaudi处理器的训练性能可以实现从单一设备扩展至由数百个处理器搭建的大型系统的线性扩展。
还是和英伟达的V100相比,基于ResNet-50基准测试,Gaudi所表现出来的计算性能、功耗比和延迟时间仍然相当出色,在速度上要比V100快3.8倍。比如,在性能方面,V100单卡大概每秒处理600多张图片,而Gaudi单卡则可以处理1600多张;在功耗方面,V100处理600多张图片的功耗达到了300瓦,而Gaudi处理1600多张图片的功耗只有150瓦左右。在这方面,Gaudi创造了新的性能纪录。
Gaudi与V100在性能方面的对比
除了性能,Gaudi还创造了人工智能训练领域的另一项“行业第一”。其处理器片上集成了 RDMA over Converged Ethernet (RoCE v2) 功能,能够让人工智能系统使用标准以太网扩展至任何规模。借此,用户还可以利用标准以太网交换进行人工智能训练系统的纵向扩展和横向扩展。同时,以太网交换机已被数据中心应用于计算系统和存储系统的扩展中,在速度和端口数方面可提供几乎无限的可扩展性。在这一方面,与Habana的标准设计相比,基于GPU的系统则依赖于专有的系统接口,对系统设计人员来说,这从本质上已经大大限制了其可扩展性和选择性。
另外,Habana Labs还推出了一款名为HLS-1的8-Gaudi系统,配备了8个HL-205子卡、PCIe外部主机连接器和24个用于连接现有以太网交换机的100Gbps以太网端口,让用户能够通过在19英寸标准机柜中部署多个HLS-1系统实现性能扩展。
HLS-1
Eitan Medina介绍,Gaudi配备的是32GB HBM-2内存,目前提供两种规格:一种是HL-200 - PCIe卡,设有8个100Gb以太网端口;另一种是HL-205 - 基于OCP-OAM标准的子卡,设有10个100Gb以太网端口或20个50Gb以太网端口。
据悉,Habana Labs将于今年下半年面向特定客户提供Gaudi的样品。“通过这几款产品的推出,我们的第一目的还是推动人工智能芯片领域的进一步发展,帮助这个领域中的用户解决相关问题,比如计算性能、效率、灵活性等等。”Eitan Medina表示。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。