智能测试与数据链的碰撞:挑战与未来

智能测试的核心瓶颈并非算法,而是数据链的完整性。随着芯片架构日趋异构、封装日益复杂,测试数据需跨越晶圆厂、封装、终测及现场监控等多个环节保持连贯可信。业界专家指出,数据延迟压缩、模型溯源管理、测量环境有效性验证,以及将现场遥测反馈至生产决策,已成为智能测试落地的关键挑战。

核心要点:

智能测试的核心挑战在于数据链问题,而非算法本身。

一颗芯片即便通过了每一个测试检查点,仍可能携带测试记录从未捕获到的潜在缺陷。

随着测试越来越自适应,测量环境的有效性与测量结果本身同等重要。

多年来,测试路线图一直朝着更具自适应性的流程、更优化的分组策略、更短的测试时间以及能够判断哪些需要测试、哪些可以跳过、哪里最可能出现下一个故障的机器学习模型方向演进。这种"智能测试"方法依然成立,但随着器件日趋异构化,且越来越难以在单一测试插入点完成完整表征,馈入机器学习模型的数据中可能已不具备足够的上下文信息来识别可操作的规律。

因此,智能测试正在从测试时间优化问题演变为代价高昂的可追溯性挑战。制造商需要能够将芯片在晶圆厂的加工信息、测试环节的测量数据、模型的预测结果以及器件在现场的实际表现串联起来。但模型只是其中一层,更难的问题是建立一套数据基础设施,使模型能够在正确的器件、正确的插入点以及附有完整工艺历史的前提下采取行动。

智能测试是一种将自适应测试规则、机器学习模型以及前馈或反馈数据相结合的方法,通过综合来自晶圆厂计量、检测、电学测试、封装及现场监控等环节的信息,对测量项目、测试限值、分组策略或物料流程进行动态调整。它并非某一单一标准、协议或产品类别,而是描述从固定测试序列向基于测试前、测试中及测试后所采集数据进行制造决策这一转变的整体理念。

PDF Solutions Exensio解决方案总监Greg Prewitt表示:"对价值影响最大的,是收集、对齐和标准化数据的能力,以及将模型部署到任何有用场景的基础设施能力。这需要底层大量的平台数据工程支撑,以及贯穿全程的可追溯性。"

如今,一颗芯片可能经历晶圆分选、封装组装、老化测试、终测、系统级测试及现场监控等多个环节,沿途携带着由晶圆厂计量工具、检测系统、自动测试设备、分选机、探针台以及客户专属分析平台所产生的大量数据。智能测试的价值取决于能否在每一次数据交接中保持这些数据流的连通性、可解读性与可信度。

过去,测试设备在优化上以缓存数据、构建日志文件为目标,优先保障吞吐量而非降低延迟。如今,它们被要求做完全不同的事情——如果一项测量结果需要影响测试限值、测试流程、站点行为或后续插入决策,测试单元就需要更快地获取数据并具备足够的计算能力,以便在不拖慢生产节拍的前提下及时响应。

Teradyne智能制造产品经理Eli Roth表示:"长期以来,我们一直在容忍数小时乃至数天的数据采集与行动之间的时间差。如今,我们看到这一延迟已被压缩至分钟级,甚至秒级。"

这种时间压缩正在暴露制造数据链各环节的薄弱之处。部分问题属于物理层面,包括热不稳定性、探针变异、插座磨损和接触电阻漂移;另一些属于信息层面,包括元数据缺失、设备身份标识不一致,以及模型输出无法追溯到有意义的物理成因。这些问题各自以不同方式破坏自适应测试,但都指向同一个根本要求——智能测试依赖于能够被快速信任并付诸行动的数据。

Roth补充道:"我认为当今智能测试的核心不在于构建模型或制定规则,而在于理解延迟与计算需求,同时不影响吞吐量。"

漏检缺陷的高昂代价

测试覆盖范围始终受制于经济因素。芯片制造商或许希望获取更多数据,但每一项额外测量都必须与设备成本、测试时长、人工、电力、占地面积、吞吐量以及零件平均售价进行权衡。

Advantest业务发展经理Don Blair表示:"芯片制造商有测试成本预算,他们在预算范围内尽可能多地进行测试。超出预算后,就必须设法削减测试成本,包括缩短测试时间或删减测试项目。"

经济层面的风险在先进封装领域体现得最为突出。在单片流程中仅增加少量测试时间的漏检缺陷,一旦出现在多裸片组装产品中,可能消耗整个组装产品的全部价值。这种不对称性直接影响着筛选环节的价值判断。

proteanTecs业务发展高级总监Nir Sever表示:"先进封装测试的主要挑战,在于确保选入组装候选的裸片完全无缺陷。如果在晶圆分选时漏掉了一颗小芯片中的缺陷,将其组装后在终测时才发现,整个产品基本就报废了,损失可能是单颗裸片价值的数个数量级。"

在复合良率环境下,微小的不确定性会迅速累积放大。一颗芯片可能通过了宽泛的统计限值,但如果其内部行为与自身工艺和时序特征所预期的不符,仍可能携带潜在风险。反之亦然——一颗相对群体看起来异常的芯片,如果其行为与预期的个体特征高度一致,实际上可能完全健康。

Sever表示:"关键在于,能否在测试过程中采集足够的数据,使其不仅仅提供简单的通过或失败判定?来自芯片内部数千乃至数万个位置的参数数据,可用于训练模型、识别那些任何其他统计方法都无法发现的异常值。这是一种个体化评估,而非统计性评估。"

测量路径成为数据的一部分

随着测试越来越具有自适应性,测量环境的有效性与测量结果本身同等重要。插座磨损、异物污染、接触电阻、热变异、校准漂移以及设备状态,都可能影响测试结果反映的究竟是器件本身还是测试条件。若接触问题被误判为器件故障,自适应系统可能将错误信号输入分组决策或下游插入环节,而不会有任何异常提示。

Nordson Test and Inspection业务发展总监Vidya Vijay表示:"断续性接触电阻、假开路以及异物导致的短路是常见祸首,在有人想到检查插座之前,它们看起来都像是器件故障。接触共面度和接触高度等参数在漂移时尤为具有欺骗性,可能引发多种问题。"

当测试流程需要在极短时间内做出决策时,同样的原则依然适用。如果测试设备只有毫秒或秒级的时间来调整限值或流程,数据路径必须能够足够快速地区分器件信号与测试装置的干扰,以避免错误的扩大。

随着功率密度的持续上升,热效应的影响也愈发突出。对于先进器件而言,测试过程中器件的热状态是一个与每项测量相互作用的变量。在未经仔细校准决策规则的情况下盲目增加监控,可能像解决问题一样容易地制造新问题。

Teradyne电源与热仪器解决方案产品经理Damian Megna表示:"如果灵敏度设置过高,你将不得不频繁清洁探针针尖,这会缩短其使用寿命。根据后续处理方式的不同,这实际上可能适得其反,有损于最终目标的实现。"

模型需要上下文

测试领域的机器学习,往往没有其市场宣传中那么引人注目。模型可以识别相关性、分类异常值并推荐可能的根本原因,但它们不会自动判断输入数据是否标注正确,或是否在有效条件下采集。这一局限在制造业中尤为关键——一个看似合理的解释,可能足以导致好料被误报废,或让潜在缺陷漏网。

模型输出越来越需要被纳入受控数据环境加以管理。如果一个模型影响了后续操作,其输出便成为测试历史的一部分,需要被存储、监控并持续检查是否出现漂移。

PDF Solutions的Prewitt表示:"重要的是,当你使用一个生成预测或特征的模型时,这些输出应当作为虚拟测试操作被加载回你的分析系统。这样你就能建立一些控制机制,或者至少具备识别模型突然发生漂移、输出结果出现异常的能力。"

这种方法为模型治理奠定了基础,将模型行为与训练时所依据的工艺条件和产品组合挂钩,并在这些条件与模型当前所评估的实际情况出现偏差时发出警报。

Prewitt补充道:"这最终可能演变为用模型来监控模型。如果你有第一层模型及其预测,再加上实际测试操作的响应结果,你就可以让另一个模型监视这两组结果,并从中发现潜在的变异。"

计量成为测试上下文

随着自适应测试的触角延伸至测试设备之外,在线计量和检测对于下游测试决策的重要性也随之提升。结构性变异在额外工艺处理、封装或电压应力施加之前,可能不会以电学失效的形式显现出来。在线计量的价值,不仅在于在异常发生的当下及时捕获,更在于将结构性证据与下游电学行为建立关联。

以碳化硅功率器件为例,衬底中的晶体缺陷可能扩展到外延层,并在高压负载下最终以潜在或致命失效的形式出现。再如三维NAND器件中垂直结构的微小畸变,可能在每一道单独的检测步骤中都顺利通过,却在逐层累积后最终导致失效。

高质量在线计量在实际应用中具有双重价值。Onto Innovation产品营销高级总监雷忠表示:"一方面,它意味着在真正重要的工艺异常发生时,能够在第一时间将其捕获。面对三维器件时代的工艺控制挑战,我们正与客户紧密合作,识别那些潜在的'逃逸通道',并以一切可能的方式找到解决方案加以封堵。"

Onto Innovation首席营销官兼战略高级副总裁Mike Rosa则补充道:"另一方面,将关键结构性器件参数与测试能力之间已知的关联关系加以应用,意味着在器件测试时,将在线采集的关键计量数据及时传递至下游,能够更好地建立可能导致潜在或致命缺陷的工艺异常与可用于在产品出厂前加速失效的关键测试参数之间的相关性。将晶圆厂的计量数据与被测器件挂钩,将是这一整体流程的关键组成部分,对于器件供应商而言显然具有极高的价值,有助于他们减少可能在现场发生的潜在或致命缺陷。"

问题在于,在测试工程师能够利用这些信息之前,数据交接往往已经断裂。计量或测试数据或许存在,结构特征与失效模式之间的已知关联或许也存在,但这些数据仍必须历经晶圆厂、供应链和测试生态系统的流转,并保持足够的规范性,才能始终与正确的器件相对应。

Rosa补充道:"不幸的是,这种断裂几乎在一开始就会发生。它出现在有用的晶圆级计量或检测数据贯穿整个晶圆厂工艺流程的追踪环节,也出现在已知失效模式与属性和器件结构或材料特性之间的关联建立上。在很多情况下,这些关联是已知的,软件工具也具备记录计量或检测数据并追踪器件在供应链和测试流程中流转的能力,但这一过程依赖于一条极为严格的供应链,以及全程兼容的数据追踪能力——而这在今天,往往是时灵时不灵的。"

物理分析填补证据缺口

物理分析为证据链增添了另一个维度,因为电学测试可以识别失效的存在及大致位置,但并不总能揭示失效的物理成因。在先进封装领域,缺陷可能深埋于堆叠或异构结构内部,这种区别愈发重要。电学技术可以将缺陷定位到数微米的精度,但根本原因可能是裂纹、分层、非润湿界面、缺失的铜柱、异物导致的短路,或其他比电学定位所能完全分辨的尺度更小的结构特征。

蔡司显微镜市场战略高级总监兼电子业务部门负责人Thomas Rodgers表示:"最精确的电学测试能够将缺陷定位到几微米的范围内。但当客户需要理解该失效的根本原因时,就必须从物理层面理解器件究竟出了什么问题。"

这正是无损成像改变失效分析流程之所在。如果检查埋藏缺陷的唯一方式是切开样品,那么分析过程本身就可能破坏证据。高分辨率三维X射线可以在破坏性分析之前提供立体视图,帮助工程师判断X射线图像是否已经足够,或是否应以其为引导,进行后续的聚焦离子束扫描电镜或电子显微镜分析。

Rodgers表示:"如果检查缺陷的唯一方式是切开样品,你就始终面临破坏所检测对象的风险。如果切过了缺陷所在的位置,缺陷就消失了,重要的信息和经验也随之丢失。这在先进封装领域尤为关键,因为结构正变得越来越三维化和复杂化。"

在这一角色中,物理分析成为智能测试的修正工具。对每颗大型芯片或封装进行高分辨率成像是不现实的。但一旦电学测试、声学检测或其他定位技术将搜索范围缩小,成像便可以验证电学特征是否对应真实的结构缺陷,并将根本原因的认知反馈至工艺流程。

对可追溯性的需求也在改变客户对测试覆盖规范的期望。仅仅知道某项测试已经执行已经不够,工程师需要了解它覆盖了哪些内容、遗漏了什么,以及该测量是否与有意义的缺陷机制相关联。

一套测试流程在安全地跳过、缩短或替代某项测试之前,必须明确这些测试原本提供了哪些证据。而随着设计迭代和封装架构日趋异构,这种认知的退化速度往往超出大多数团队的预期。历史数据可以为未来决策提供参考,但前提是过去与现在之间的关联仍然有效。

西门子EDA Tessent产品线产品经理Etienne Racine表示:"尽管过去的结果提供了一定的指导,但由于设计持续演进和技术不断进步,历史测试结果可能存在不一致性。目前仍然有效的一个结论是:通过数字扫描测试和存储器内建自测试进行结构性测试,在故障检测和分组方面的效果远优于功能测试。"

这使得覆盖历史成为另一种形式的数据链上下文。自适应测试只有在先前的结果仍能准确描述当前测试设备面前的器件、工艺和缺陷机制时,才能有效地依据这些结果采取行动。

智能测试向测试单元迁移

随着延迟窗口的收窄,智能测试开始向测试单元本身迁移。决策越贴近探针接触点,就越依赖于快速的数据传输、本地化的计算能力,以及对吞吐量影响的精细管控。一条规则可能只需响应简单的重复失效特征,而更复杂的模型则可能需要部署在测试设备附近的边缘计算节点。无论哪种情况,测试系统都必须支持这些行动,而不使智能化本身成为瓶颈。

Teradyne的Roth表示:"我们正在与前沿客户探索如何在同一次探针接触中实时更改限值、更改流程、更改站点映射以及更改站点行为。部分客户已经进入量产阶段,但他们不愿透露,因为大家都不想暴露自己究竟领先还是落后。但这确实正在实验室中发生,并逐渐进入一些优先布局这一领域的客户的量产流程。"

对架构的要求远不止于测试设备本身。一项测试决策可能取决于测试仪数据、热状态、分选机或探针台状态、前序计量结果、封装历史以及模型输出,而在大批量生产环境中,可供做出该决策的时间窗口可能极为短暂。

Modus Test应用与产品管理总监Jack Lewis表示:"实现这些功能需要大量的基础设施支撑。这类零件的测试时间通常非常短。例如,我们为一款低压差稳压器进行测试,其中包含大量高精度测试项目,但我们在500毫秒内完成16个测试站点的测试。"

智能测试延伸至现场

最终,同样的智能测试逻辑将延伸至制造环节之外。对于应用于人工智能、云计算、汽车及其他对可靠性要求较高场景的高价值器件而言,量产测试可能并非器件行为最后一个具有意义的观测点。现场遥测数据能够揭示老化、工作负载应力、边缘内核以及在量产测试中不可见的潜在缺陷;对于长期承受机械、热和电压应力的器件,其退化曲线可能与任何量产测试插入点所能预测的存在显著偏差。

proteanTecs的Sever表示:"测试不是一次性的,甚至不是两次或三次性的事件。测试伴随芯片从第一次上电直到报废的整个生命周期。"

嵌入式遥测可以在单个逻辑锥的粒度上识别异常,向固件或系统级控制器发出警报,并支持从将边缘内核从活跃资源池中移除,到调整电压或时钟条件等一系列响应措施。

Sever表示:"我们在芯片内部处理的数据,以及我们向芯片内部主控制器或芯片外部系统级控制器传递的信号,具有极高的颗粒度。在某些实现中,我们甚至可以将其细化到单个逻辑锥——也就是收敛到单个触发器的所有逻辑。这就是我们所能达到的颗粒度级别。"

其结果是一个从量产延伸至运营的反馈回路。现场行为可以为预测性维护提供依据,同时也能揭示哪些量产特征、工艺异常或边缘测试结果曾是后期退化的早期预兆。这些信息反过来可以反馈至未来的筛选、分组、冗余分配以及可测试性设计决策中。

Sever补充道:"客户正在将我们的遥测数据与他们自己的遥测数据进行融合。我们的数据主要来源于芯片内部的物理测量,他们的数据主要来源于其自研的片内功能监控器和系统级传感器。他们将两者融合在一起,共同为自研的设备群监控系统提供输入。"

结语:证据链

对制造商而言,战略性问题在于能够使这条数据链中多少内容真正可用。行业已经产生了海量数据,但这些数据的价值取决于能否在时间、工具、测试插入点和物理上下文之间实现有效对齐。一个能够预测失效但缺乏可追溯性的模型或许有趣,而一个不仅能预测失效,还能将其与晶圆级特征挂钩、与计量数据交叉验证、与测试条件比对、并通过现场行为加以确认的模型,则具有远远更高的价值。但构建后者也远比前者困难得多。

智能测试不只是让测试更快,更是让决策更具可问责性。跳过某项测试、收紧某个限值、报废一颗裸片、增加一个测试插入点,或将某个内核从服务中移除——所有这些决策,都依赖于对支撑该行动的证据链的信心。这条链断裂的根源,不在于行业缺乏算法,而在于测量上下文的丢失、物理成因与电学症状的割裂、元数据对可追溯性的破坏,以及模型被要求对无人能够完全背书的数据采取行动。

智能测试的下一阶段,将属于那些能够在从设计意图和工艺变异,到测试行为、模型输出、封装历史直至现场性能的完整路径上,始终保持数据意义传承的制造商。

Q&A

Q1:智能测试为什么是数据链问题,而不是算法问题?

A:智能测试的核心挑战并不在于构建机器学习模型本身,而在于能否将晶圆厂工艺数据、测试测量结果、模型预测以及现场表现等信息有效串联。即便模型再先进,如果输入数据缺乏上下文、元数据断裂或测量环境无效,模型的输出也无法被信任或付诸行动。因此,建立可靠的数据基础设施和全流程可追溯性,才是智能测试真正落地的关键所在。

Q2:先进封装测试中漏检缺陷的代价为什么特别高?

A:在先进封装中,多颗裸片被组装成一个整体产品。如果一颗小芯片在晶圆分选阶段漏检了缺陷,等到组装完成后在终测中才被发现,整个组装产品就必须报废,损失可能是单颗裸片价值的数个数量级。这种不对称性使得每一个测试插入点的覆盖质量都至关重要,也推动了对更精细化、个体化测试评估方法的需求。

Q3:嵌入式遥测如何将智能测试延伸到芯片现场使用阶段?

A:嵌入式遥测技术可以在芯片运行期间持续采集内部物理测量数据,精细到单个逻辑锥的粒度,向控制器发出异常警报,并支持调整电压、时钟或移除边缘内核等响应措施。这些现场数据不仅用于预测性维护,还能反向揭示哪些量产测试特征或工艺异常是后期退化的早期信号,从而反馈优化未来的测试筛选和设计决策。

来源:Semiconductor Engineering

0赞

好文章,需要你的鼓励

2026

05/14

07:57

分享

点赞

邮件订阅