AI时代Chiplet设计中不可或缺的可观测性层

在基于Chiplet的架构中，可观测性正成为系统设计的关键缺失环节。多位半导体行业专家指出，AI可从硅层遥测数据中挖掘价值，但前提是架构须提供一致的检测手段、近传感器数据压缩及可编程采集能力。专家们强调，多供应商Chiplet生态系统需要标准化、安全的遥测模式，以实现跨芯片、封装和互联域的故障定位，同时保护敏感运营数据。目前，AI在遥测分析阶段已展现出显著价值，但可观测性的扩展本质上仍是架构问题。

随着高性能系统日趋复杂，芯片内部可观测性（即片上或裸片级可见性）正变得愈发关键。《半导体工程》杂志就片上数据分析与系统韧性议题，召集了来自Arteris、Axiomise、Baya Systems、Cadence、Keysight EDA、Movellus、Siemens EDA、Synopsys及Vinci等公司的技术专家，展开深度圆桌讨论。以下为讨论摘要。

AI在可观测性数据中的应用现状

AI正被广泛引入芯片设计流程，涵盖设计验证、规则检查及仿真加速等多个环节。在数据中心场景下，借助多类监控器采集的海量数据，AI模型已能够精准预测硅片失效时间，甚至精确到具体日期。

在数据采集阶段，业界普遍倾向保留传统方式，以确保捕获过程的确定性——没有人希望智能监控器在关键时刻"自行决定"放弃捕获错误信息。

在分析阶段，AI的价值体现得尤为突出：可用于高维遥测数据的异常检测、现场故障聚类分析，以及从测试数据中识别问题设备的早期细微规律。

在执行阶段，当前仍以基于规则的方式为主，但在可预见的未来，AI辅助控制器将逐步普及，并在明确的安全边界内运行。

与此同时，小型语言模型（TinyML）也正深度嵌入芯片内部，在极小的硬件面积内完成片上数据分析，尽管相关公开资料目前还相当有限。

展望未来，智能体AI有望承担数据中心基础设施的统一编排与管理职责。随着数据量持续爆炸式增长，人工介入实时决策将变得不切实际，自动化管理将成为必然选择。

Chiplet架构下的可观测性扩展挑战

当系统向多裸片和Chiplet架构演进时，可观测性扩展面临的核心挑战在于：如何在跨裸片边界的情况下，仍能获得对系统行为的整体、一致的视图。

扩展性最佳的方案，是将可观测性与通信互联架构本身对齐，沿数据实际传输路径进行观测。AI固然有助于从大规模系统级遥测数据中挖掘规律、指导优化，但它无法替代底层的架构设计——如果缺乏一致的、与互联架构对齐的可见性，AI便无从发挥作用。

在可编程性和软件可访问性方面，架构设计同样至关重要。接近传感器端的数据处理与压缩，对于控制数据移动开销、实现系统扩展尤为关键。

标准化议题同样备受关注。超大规模数据中心运营商希望至少在遥测层面实现标准化，而随着多家供应商的多种IP方案被集成至同一大型系统，统一的数据格式标准将成为现实需求。一致的遥测Schema与访问框架，既能帮助集成商跨裸片、封装及互联域定位故障，又能有效保护敏感运营数据。

可观测性机制对系统性能的影响

通过合理设计，可观测性对系统性能的影响可以控制在极低水平。业界普遍采用的最佳实践包括：保持观测路径与主数据路径的独立性，利用过滤机制限制采集范围，避免不必要的侵入式模式，以及在可观测性基础设施与功能运算之间实现完全隔离。

监控机制通常采用分层设计：始终运行的低开销层，负责采集健康监控数据和聚合计数器；丰富的调试追踪层，仅在特定诊断场景下按需启用。

形式化验证方法在此也能发挥重要作用：通过形式化证明，可以确认新增的可观测性逻辑不会破坏系统的关键属性（如无死锁、安全性等），并以量化方式评估性能开销与可诊断性之间的权衡。

尽管监控基础设施会带来一定的额外开销，但其价值往往远超成本。以超大规模数据中心为例，一旦训练集群因单个节点故障而中断，损失可能高达数千美元，而精准的遥测能够有效规避此类灾难性故障。

可观测性的未来发展方向

与会专家总结了当前可观测性机制的主要局限，并指出了未来的发展方向：

属性感知遥测：当前监控器主要暴露温度、电压、计数器等底层数据；未来应直接从形式化属性出发推导监控指标，使遥测数据更具可操作性。

硅片遥测与形式化模型的双向联动：将真实的流量规律、边界场景序列和观测到的故障模式反馈至形式化验证环境，同时由形式化工具揭示当前监控体系中的盲区。

无声数据损坏（SDC）检测：这一问题已无法回避，需要从设计之初就将SDC早期症状检测纳入可观测性框架。

封装级可见性：在Chiplet生态中，单独看起来电气特性正常的组件，可能在互联层面出现故障，其根因难以定位（如凸块或基板问题）。提升跨裸片、封装及互联域的故障隔离能力，将是打通真正意义上开放Chiplet市场的关键所在。

安全与隐私保护：监控数据——包括温度、电压乃至事务级数据——在汽车和数据中心等领域高度敏感，需要建立跨厂商的一致性保护机制。

Q&A

Q1：为什么在Chiplet架构下，芯片可观测性变得更加复杂？

A：在Chiplet多裸片架构中，系统行为跨越多个裸片边界，传统的单芯片监控方式无法提供整体视图。各裸片可能来自不同供应商，遥测格式不统一，故障定位时难以判断问题究竟出在裸片本身、封装基板还是互联层面。此外，数据量随系统规模呈指数级增长，人工分析已不可行。因此，必须在架构层面设计与互联Fabric对齐的可观测性方案，并配以标准化的遥测Schema，才能实现跨裸片的一致性监控。

Q2：AI在芯片可观测性中能发挥哪些作用，目前有哪些局限？

A：AI目前主要应用于遥测数据的分析阶段，例如异常检测、故障聚类、预测性维护（甚至可预测硅片失效日期）以及性能优化建议。但AI并不能解决数据采集和基础设施标准化问题——如果底层没有一致的、结构化的遥测数据，AI就没有可靠的输入。此外，执行层面目前仍以基于规则的方式为主，AI辅助控制器虽在逐步普及，但需在明确的安全边界内运行。

Q3：开放Chiplet市场面临哪些主要障碍，可观测性如何帮助解决？

A：开放Chiplet市场的主要障碍之一是多供应商环境下的故障责任归属问题——当系统出现问题时，各厂商往往难以明确判断故障根因是在哪个裸片、封装还是互联环节。提升封装级可见性、建立标准化的遥测Schema和访问框架，能够帮助集成商更早隔离故障来源，减少相互推诿，从而降低系统集成风险，推动真正开放的Chiplet商业生态落地。