AI时代Chiplet设计中不可或缺的可观测性层

在基于Chiplet的架构中,可观测性正成为系统设计的关键缺失环节。多位半导体行业专家指出,AI可从硅层遥测数据中挖掘价值,但前提是架构须提供一致的检测手段、近传感器数据压缩及可编程采集能力。专家们强调,多供应商Chiplet生态系统需要标准化、安全的遥测模式,以实现跨芯片、封装和互联域的故障定位,同时保护敏感运营数据。目前,AI在遥测分析阶段已展现出显著价值,但可观测性的扩展本质上仍是架构问题。

AI时代Chiplet设计中不可或缺的可观测性层

随着高性能系统日趋复杂,芯片内部可观测性(即片上或裸片级可见性)正变得愈发关键。《半导体工程》杂志就片上数据分析与系统韧性议题,召集了来自Arteris、Axiomise、Baya Systems、Cadence、Keysight EDA、Movellus、Siemens EDA、Synopsys及Vinci等公司的技术专家,展开深度圆桌讨论。以下为讨论摘要。

AI在可观测性数据中的应用现状

AI正被广泛引入芯片设计流程,涵盖设计验证、规则检查及仿真加速等多个环节。在数据中心场景下,借助多类监控器采集的海量数据,AI模型已能够精准预测硅片失效时间,甚至精确到具体日期。

在数据采集阶段,业界普遍倾向保留传统方式,以确保捕获过程的确定性——没有人希望智能监控器在关键时刻"自行决定"放弃捕获错误信息。

在分析阶段,AI的价值体现得尤为突出:可用于高维遥测数据的异常检测、现场故障聚类分析,以及从测试数据中识别问题设备的早期细微规律。

在执行阶段,当前仍以基于规则的方式为主,但在可预见的未来,AI辅助控制器将逐步普及,并在明确的安全边界内运行。

与此同时,小型语言模型(TinyML)也正深度嵌入芯片内部,在极小的硬件面积内完成片上数据分析,尽管相关公开资料目前还相当有限。

展望未来,智能体AI有望承担数据中心基础设施的统一编排与管理职责。随着数据量持续爆炸式增长,人工介入实时决策将变得不切实际,自动化管理将成为必然选择。

Chiplet架构下的可观测性扩展挑战

当系统向多裸片和Chiplet架构演进时,可观测性扩展面临的核心挑战在于:如何在跨裸片边界的情况下,仍能获得对系统行为的整体、一致的视图。

扩展性最佳的方案,是将可观测性与通信互联架构本身对齐,沿数据实际传输路径进行观测。AI固然有助于从大规模系统级遥测数据中挖掘规律、指导优化,但它无法替代底层的架构设计——如果缺乏一致的、与互联架构对齐的可见性,AI便无从发挥作用。

在可编程性和软件可访问性方面,架构设计同样至关重要。接近传感器端的数据处理与压缩,对于控制数据移动开销、实现系统扩展尤为关键。

标准化议题同样备受关注。超大规模数据中心运营商希望至少在遥测层面实现标准化,而随着多家供应商的多种IP方案被集成至同一大型系统,统一的数据格式标准将成为现实需求。一致的遥测Schema与访问框架,既能帮助集成商跨裸片、封装及互联域定位故障,又能有效保护敏感运营数据。

可观测性机制对系统性能的影响

通过合理设计,可观测性对系统性能的影响可以控制在极低水平。业界普遍采用的最佳实践包括:保持观测路径与主数据路径的独立性,利用过滤机制限制采集范围,避免不必要的侵入式模式,以及在可观测性基础设施与功能运算之间实现完全隔离。

监控机制通常采用分层设计:始终运行的低开销层,负责采集健康监控数据和聚合计数器;丰富的调试追踪层,仅在特定诊断场景下按需启用。

形式化验证方法在此也能发挥重要作用:通过形式化证明,可以确认新增的可观测性逻辑不会破坏系统的关键属性(如无死锁、安全性等),并以量化方式评估性能开销与可诊断性之间的权衡。

尽管监控基础设施会带来一定的额外开销,但其价值往往远超成本。以超大规模数据中心为例,一旦训练集群因单个节点故障而中断,损失可能高达数千美元,而精准的遥测能够有效规避此类灾难性故障。

可观测性的未来发展方向

与会专家总结了当前可观测性机制的主要局限,并指出了未来的发展方向:

属性感知遥测:当前监控器主要暴露温度、电压、计数器等底层数据;未来应直接从形式化属性出发推导监控指标,使遥测数据更具可操作性。

硅片遥测与形式化模型的双向联动:将真实的流量规律、边界场景序列和观测到的故障模式反馈至形式化验证环境,同时由形式化工具揭示当前监控体系中的盲区。

无声数据损坏(SDC)检测:这一问题已无法回避,需要从设计之初就将SDC早期症状检测纳入可观测性框架。

封装级可见性:在Chiplet生态中,单独看起来电气特性正常的组件,可能在互联层面出现故障,其根因难以定位(如凸块或基板问题)。提升跨裸片、封装及互联域的故障隔离能力,将是打通真正意义上开放Chiplet市场的关键所在。

安全与隐私保护:监控数据——包括温度、电压乃至事务级数据——在汽车和数据中心等领域高度敏感,需要建立跨厂商的一致性保护机制。

Q&A

Q1:为什么在Chiplet架构下,芯片可观测性变得更加复杂?

A:在Chiplet多裸片架构中,系统行为跨越多个裸片边界,传统的单芯片监控方式无法提供整体视图。各裸片可能来自不同供应商,遥测格式不统一,故障定位时难以判断问题究竟出在裸片本身、封装基板还是互联层面。此外,数据量随系统规模呈指数级增长,人工分析已不可行。因此,必须在架构层面设计与互联Fabric对齐的可观测性方案,并配以标准化的遥测Schema,才能实现跨裸片的一致性监控。

Q2:AI在芯片可观测性中能发挥哪些作用,目前有哪些局限?

A:AI目前主要应用于遥测数据的分析阶段,例如异常检测、故障聚类、预测性维护(甚至可预测硅片失效日期)以及性能优化建议。但AI并不能解决数据采集和基础设施标准化问题——如果底层没有一致的、结构化的遥测数据,AI就没有可靠的输入。此外,执行层面目前仍以基于规则的方式为主,AI辅助控制器虽在逐步普及,但需在明确的安全边界内运行。

Q3:开放Chiplet市场面临哪些主要障碍,可观测性如何帮助解决?

A:开放Chiplet市场的主要障碍之一是多供应商环境下的故障责任归属问题——当系统出现问题时,各厂商往往难以明确判断故障根因是在哪个裸片、封装还是互联环节。提升封装级可见性、建立标准化的遥测Schema和访问框架,能够帮助集成商更早隔离故障来源,减少相互推诿,从而降低系统集成风险,推动真正开放的Chiplet商业生态落地。

来源:Semiconductor Engineering

0赞

好文章,需要你的鼓励

2026

07/01

22:31

分享

点赞

邮件订阅