AI加速器测试依赖可测性设计创新

AI加速器的快速普及正在重塑芯片测试流程,要求更多测试插入点、更深层次分析及全生命周期持续监控。I/O与通道修复能力对提升良率至关重要,系统级测试可捕获边缘缺陷及静默数据损坏等罕见故障。新型失效模式包括信号完整性问题、热接触缺陷及高密度下的串扰干扰。新思科技与台积电联合开发了基于CoWoS的多裸片参考方法,实现了贯穿芯片全生命周期的测试、监控、调试与修复能力。

核心要点:

I/O与通道修复能力正成为提升良率的关键。

系统级测试能够捕获边缘缺陷以及静默数据损坏等罕见缺陷。

新思科技与台积电联合开发了一款多芯片演示载体,具备贯穿系统全生命周期的完整测试、监控、调试与修复能力。

AI芯片中加速器的大规模普及正在整个测试流程中引发连锁反应,要求增加更多测试插入点、开展更深入的分析,并在器件整个生命周期内持续强化监控。

AI加速器是专为加速神经网络、机器学习及生成式AI任务并行处理而打造的定制化硬件与软件平台。这些多芯片模组正在为自动驾驶汽车、机器人以及半导体芯片自适应测试等应用场景提供实时处理能力。可测性设计(DFT)技术正在快速演进,以应对多项核心挑战,包括芯片间测试内容的高速传输、测试平台的精准热控与散热管理,以及针对高功耗、高温度与全天候负载等全新工况组合开发相应的压力测试方案。

图1:在2.5D与3D封装架构中,验证和测试芯片间接口至关重要。来源:泰瑞达

正如本系列两篇文章第一篇所述,AI模组测试在多个维度上远比SoC测试更具挑战性:

高电流密度对热隔离与热点抑制提出严峻要求;

先进节点器件及TSV、混合键合等互连结构催生了全新失效模式;

芯片间接口缺乏测试通路,需要通过DFT创新来实现完整的测试、调试与故障修复(后文将详细阐述)。

问题的复杂程度令人望而生畏。"极端的架构复杂性与大规模并行性,使得DFT图形生成和功耗管理对AI加速器而言愈发困难,"西门子EDA 3D-IC DFT与良率技术赋能经理Quoc Phan表示,"此外,片上及外部存储容量庞大,数据传输速率高达每秒数TB,这给制造测试中的可控性和可观测性带来了极大困难。与此同时,传统测试方法难以应对的全新失效模式与芯片间互连问题,也需要创新性的DFT方案加以解决。"

正因如此,芯片制造商对功能测试的依赖程度正在与日俱增。安捷泰美国应用研究与技术副总裁Ira Leventhal和业务发展副总裁Richard Lathrop在近期发表的文章中写道:"功能测试能够跨核心、芯片小单元和存储器分析器件行为(而非仅对孤立核心进行结构测试),因此是识别细微缺陷和环境裕度问题的为数不多的有效手段之一。"实现多芯片组件目标测试覆盖率与质量的一种方法,是尽可能将功能测试内容前移至首个测试插入点,即晶圆探针测试环节。

图2:多芯片集成带来的良率压力正推动功能测试持续左移。来源:安捷泰

这一策略对于多芯片组件尤为关键。"与单片芯片测试相同,多芯片测试的目标同样是尽早发现缺陷,"新思科技首席产品经理Faisal Goriawalla表示,"区别在于,用户必须确保只有已知良品才能进入组装环节,以最大程度降低后续调试难度,并避免代价高昂的现场故障。"

然而,这并非易事。"先进封装内部的复杂性已提升了数个量级,而随着每位客户封装设计的个性化程度不断加深,这种复杂性预计还将持续攀升,"艾克尔制造测试高级总监Vineet Pancholi表示,"AI ASIC的工作电流高达1200安培(即将突破2400安培),而测试系统必须能够将器件应力提升至正常使用水平的两倍,因此测试过程中的热管理至关重要。"

这意味着测试系统必须配备精确的功率资源控制能力,包括精准调节、快速钳位以及接触电阻的实时监控。

AI系统由大规模复制的核心单元与深度分层的存储体系构成。安捷泰P93k产品线业务发展经理Daniel Simoncelli解释道:"如果所有这些芯片小单元都相同,我就不需要在多个引脚上多次复制向量数据,然后将相同信息重复发送给器件。我们采用的是流式网络架构SSN,为进一步提升速度,使用PCIe接口;器件本身足够智能,能够将内容分发至所有不同核心,因此同样的数据无需重复发送一万次。其他功能还包括片上比对能力,无需由测试机执行校验,从而大幅提升测试效率。"

艾克尔的Pancholi指出,AI加速器量产测试主要聚焦三大领域:芯片小单元硅片模块、芯片间互连,以及封装级的电气、逻辑与热性能连接。他表示,由于AI逻辑模块已支持扫描测试,结构测试可在晶体管级检测缺陷,这与其他先进逻辑芯片并无本质区别。"EDA流程自动输出测试图形,故障建模模拟传统固定型故障与现代速度转换延迟,路径延迟通常在晶圆级芯片探针测试和封装级最终测试中使用。"

掌握封装内每颗芯片或芯片小单元的详细信息,有助于实现芯片性能匹配。proteanTecs首席执行官Shai Cohen表示:"每颗芯片可能来自不同供应商,封装方甚至可能是另一家企业,要将这些整合在一起,我认为并不存在什么万能解决方案。而且一旦出现问题,责任归属也是个难题,因为当组装的芯片数量越来越多时,单次失效的代价也愈发高昂。但我们确实可以将每颗芯片内部以及芯片间接口的可见度提升10倍,借助遥测技术实现更清晰的监控。例如,在锯片测试阶段可以有效避免将缺陷芯片组装进多芯片封装,同时也有机会从性能、功耗或良率角度筛选出互补匹配的芯片,使其协同工作表现更佳。"

遥测技术(即片上监控器)最早的应用场景之一,就是辅助检测静默数据损坏(SDE)。这类罕见的负载相关错误仅在特定环境压力与工作负载条件下才会触发。除有助于发现这类"大海捞针"式缺陷外,遥测技术还能追踪器件老化状态,预估特定器件的剩余可用寿命,从而改善数据中心的预防性维护策略。

然而,并非所有故障都源自芯片小单元本身,它们也可能发生在芯片与中介层之间数以千计乃至数以百万计的互连节点上。泰瑞达半导体测试部产品营销高级总监Jeorge Hurtarte表示:"确保硅中介层中TSV的正常功能至关重要。我们往往将注意力集中在芯片本身,却不能忽视这些中间层。问题在于:从DFT角度,我们能采取哪些措施来确保TSV结构的完整性?例如,能否在TSV中嵌入一定的智能,将DFT原则应用于其中?加入智能化能力,有助于确保这些结构在直流和交流测试条件下都保持稳定可靠,对提升信号完整性和噪声隔离能力都将发挥重要作用。"

全新失效模式

AI加速器模组引入了若干全新的关键失效模式。西门子EDA的Phan表示:"传统固定型模型无法捕获的信号完整性与串扰问题(如桥接故障和小延迟缺陷),在高速高密度环境下尤为突出,邻近信号互连带来的噪声还会进一步加剧这一问题。此外,叠层芯片中的机械与热接触缺陷会随时间推移逐步发展,需要持续监控与系统内测试。为应对这些问题,I/O或通道修复能力正变得日益关键,通过绕过局部缺陷来提升良率。"

其他业界人士也对失效根源持相似看法。艾克尔测试业务发展高级总监Scott Carroll表示:"AI模组存在多种全新失效模式,大多数可以追溯至硅片缺陷、封装缺陷或热致性能退化。"

功耗感知的自动测试图形生成(ATPG)有助于应对特定的外因性失效。新思科技的Goriawalla指出:"功耗是导致这类失效的主要因素之一。若ATPG图形中的功耗管理不够精准,可能引发良率损失问题。ATPG图形往往具有较高的翻转率,可能导致IR压降超出功能模式下设计的功耗预算,进而造成误判失效,最终导致良率下滑。"

芯片间通信

芯片间接口可分为两种类型:一是逻辑对逻辑接口,包括基于PHY的接口(如UCIe)和基于I/O的接口(如低速通用I/O,即GPIO);二是逻辑对存储器接口(如HBM PHY)。两者对DFT的需求各有不同。

Goriawalla表示:"这些接口类型繁多,受协议标准约束,在分区(如主频带与旁频带)和数据速率方面存在差异,且可能具备也可能不具备冗余通道或修复方案。这使得DFT与SoC设计人员难以跨所有接口类型高效完成测试、修复、图形生成、芯片调试启动以及诊断等工作。"

由于系统内无法通过传统JTAG接口进行访问,必须部署先进外设总线(APB)等常用片上接口,以实现测试可观测性与控制能力。即便有现行IEEE标准(1149.1、1500、1687、1838)及接口IP的JEDEC标准作为参照,仍存在一定空白。

2023年,新思科技与台积电携手,基于CoWoS开发了一套多芯片参考方法论,旨在贯穿芯片全生命周期实现监控、测试、调试与修复,同时在针对堆叠芯片进行测试时不损失覆盖率,也不造成图形膨胀。其中一种配置采用UCIe接口执行SLM监控、测试、调试与修复,另一种配置则使用符合IEEE 1838标准的GPIO接口。

图3:利用片上资源支持UCIe PHY IP,该新思科技与台积电演示载体的简化框图展示了测试、调试与修复能力。来源:新思科技

台积电与新思科技在预键合与后键合制造阶段、现场上电阶段以及任务模式应用场景中实现了全面部署,并于2024年底成功完成了双芯片加中介层的流片验证。

西门子EDA的Phan进一步阐述了验证互连与功能性的相关技术。他表示:"边界扫描(1149.x)是在板级和封装级测试互连的主力技术,可检测板级和封装级的开路、短路及固定型故障,并为高速差分接口提供专项支持(1149.6)。接口内建自测(BiST)至关重要,其中包括专用于HBM数据路径验证的BiST(通常利用HBM的回环模式和通道修复)以及SerDes BiST(采用回环和PRBS),用于各xPU之间高速串行链路的测试。最后,全速功能测试是终极验证的必要手段,涵盖大规模数据传输和性能基准测试,以确保在真实工况下的完整性与性能表现。"

系统级测试

与自动测试设备(ATE)及封装器件测试不同,系统级测试(SLT)模拟的是器件的真实工作条件。通过在接近实际运行的环境中对器件、外设与软件进行综合测试,企业可将逃逸率控制在可接受的每百万缺陷数(DPPM)水平以内。

那些仅在多个组件高速协同工作、处于特定温度或运行特定软件负载时才会触发的边缘缺陷,尤其难以通过ATE捕获。英特尔代工近期自主开发了一套SLT模块化平台,专门用于排查静默数据损坏等罕见缺陷。该系统级测试平台配备了与真实系统相同类型的内存模块、存储设备、显卡和网络接口。

英特尔代工高级产品开发架构师Vishwanath Natarajan表示:"高速接口缺陷用传统方法极难检测,但在真实数据流量和电气噪声条件下进行测试时便会暴露出来。SLT能够有效规避USB设备断连、音频故障以及图形性能问题等现象,这些问题若流入市场,将严重影响用户体验并损害产品口碑。"

IBM Research AI硬件研究工程师JohnDavid Lancaster强调了AI加速器实现极高运行时间与可靠性的重要性。他表示:"在极端高压负载下对完整硬件栈进行全面压力测试至关重要,以确保AI系统(芯片、卡)在现场不会发生故障。为此,我们在执行大语言模型推理与硬件最极端压力测试时,进行完整的错误检查、张量结果验证和诊断分析,从而同时对计算核心、存储器接口和电源域施加充分压力。"

制造流程的每个阶段都能测试最终AI芯片的更多功能,从晶圆测试开始,到SLT阶段对完整芯片进行测试。由于许多功能只能在制造流程末端才能得到验证,SLT在确保芯片现场部署前的一致性与可靠性方面发挥着关键作用。

SLT测试套件通过持续的反馈闭环不断迭代优化:运行测试、分析失效、调整负载、更新筛选标准,循环往复。与半导体测试的诸多方面一样,工程师们需要在测试吞吐量与测试覆盖率之间寻求平衡。Lancaster解释道:"由于制造测试时间有限,只能运行最具预测性、覆盖率最高的一小部分测试。确定这个精简但充分的测试集,需要对调试阶段积累的大量失效数据和裕度数据进行深入分析。"

老化测试通过施加高于正常使用条件的电压与温度,模拟制造工艺中缺陷与差异导致的器件老化过程。艾克尔的Pancholi表示:"老化测试依然是不可或缺的测试插入点,对每一个新的晶圆制造工艺尤为关键。通过早期量产阶段剔除早期失效缺陷是不可或缺的环节。晶圆级老化测试难度较高,目前仍主要在封装后进行。"

结语

自AI加速器与多芯片封装兴起以来,业界愈发清晰地认识到:要保障数据中心全天候稳定运行,必须在芯片全生命周期内持续开展测试,从晶圆探针测试到系统内测试,缺一不可。新思科技的Goriawalla表示:"AI加速器必须内置支持现场测试与修复的设计组件,从而使测试不仅覆盖制造阶段,更能贯穿芯片的完整硅生命周期。"

可测性设计的重要性同样与日俱增,需要内建接口自测能力以及专用的HBM内建自测功能,以提供回环测试与通道修复支持;同时,SerDes内建自测用于验证处理器芯片间的高速链路。功耗感知ATPG有助于防止有害功耗浪涌与误判失效。最后,系统级测试在确保AI模组安装至数据中心前功能完备方面正发挥着举足轻重的作用。

Q&A

Q1:AI加速器测试为什么比普通SoC测试更难?

A:AI加速器测试难度更高,主要原因有三:一是高电流密度使热隔离和热点控制更加复杂;二是TSV、混合键合等先进互连结构带来了全新的失效模式;三是芯片间接口缺乏传统测试通路,需要DFT创新才能实现完整的测试与修复。此外,极端的架构复杂性和大规模并行性也使测试图形生成和功耗管理难度显著上升。

Q2:什么是静默数据损坏(SDE),AI芯片如何检测它?

A:静默数据损坏是一种罕见的负载相关错误,只在特定环境压力和工作负载条件下才会出现,传统测试方法极难捕获。目前主要通过系统级测试(SLT)来发现此类缺陷,即在模拟真实运行环境下对器件、外设和软件进行综合测试。英特尔代工已专门开发了SLT模块化平台,配备与真实系统相同的硬件组件,用于筛查这类罕见缺陷。

Q3:新思科技与台积电合作的多芯片测试方案有什么特别之处?

A:新思科技与台积电于2023年合作,基于CoWoS封装技术开发了一套多芯片参考方法论,能够在不损失覆盖率、不造成图形膨胀的前提下,贯穿芯片全生命周期实现监控、测试、调试与修复。方案支持UCIe接口和符合IEEE 1838标准的GPIO接口两种配置,并于2024年底成功完成了双芯片加中介层的流片验证,具备预键合、后键合及现场使用等全阶段的完整覆盖能力。

来源:Semiconductor Engineering

0赞

好文章,需要你的鼓励

2026

05/12

17:45

分享

点赞

邮件订阅