核心成就:在2.5 PetaOPS算力支撑下,实现跨多路8K视频流的实时AI嫌疑人识别与威胁检测
技术栈:Voyager SDK + Axelera Metis + Intel Xeon
未来展望:下一代Europa架构将带来3倍性能提升
在ISC West展会上,企业领导者普遍反映,边缘AI的"试点阶段"已然结束。现阶段的核心挑战在于规模化落地——不再局限于单一模型处理单路视频流,而是要以商业可行的成本,在多路视频流上协同调度数十个AI模型。
2026年回归ISC West展会,Axelera带来了迄今最具野心的互动体验,旨在充分展示实时、多模型、高分辨率多路流安全系统的极限能力。
去年,Axelera率先展示了8K AI推理方案。如今,Voyager SDK进一步扩展了安全相关功能,涵盖嫌疑人识别、告警与可视化框架,旨在缩短操作员响应时间,尤其是在展厅现场检测到潜在武器时。此次联合四家ISV合作伙伴打造的安全演示,充分呈现了客户如何便捷地训练、部署自定义模型,并将其集成至端到端软件流水线,实现规模化即插即用AI解决方案,同时彰显了Voyager SDK的成熟度。
Voyager SDK与Metis AIPU的核心能力
基于Axelera Metis AIPU与Voyager SDK进行开发,可获得一整套开箱即用的高并发多路流AI工作负载编排能力,具体包括:
硬件加速解码:同步采集并解码多路4K/8K视频流,确保低延迟与高吞吐量。
基于切片的预处理:将高分辨率视频流切分为相互重叠的图像块,保障AI对小目标的高精度检测,同时通过透视变换对不同摄像机角度进行归一化处理。
并发分析:并行运行多个模型,实时检测并追踪人员、面部特征点及目标物体。
模型级联:将检测器输出传递至下游模型,例如将人脸检测器的兴趣区域输出传入识别模型。
自定义流水线逻辑:集成用户自定义代码,实现条件逻辑以筛选特定帧或兴趣区域,传递至下游模型。
智能边缘编排:仅将关键元数据/事件上传云端以优化带宽,同时在本地保留原始高分辨率视频供取证存档。
Voyager SDK新增功能:支持在流水线中嵌入自定义C++与Python逻辑,为现代高性能应用提供所需的架构灵活性。
嫌疑人追踪流水线
在真实环境中识别和追踪嫌疑人面临重重挑战:目标可能穿行于人群之中,被遮挡物遮蔽,或刻意规避摄像头。系统还须应对光线不足、运动模糊、面部角度多变等复杂条件。
人脸识别模型对输入质量极为敏感,若不加区分地处理模糊、偏角或局部遮挡的人脸,不仅会增加漏识(未能识别已知目标)和误识(错误匹配)的概率,还会浪费宝贵的AI算力。
为此,系统需要从逐帧识别转向更精细的时序处理。在检测器后引入追踪器,开发者可在多帧中识别同一个体,并为每个追踪ID构建姿态质量缓冲区。结合条件逻辑,系统可筛选出质量最高的检测裁图,在提升准确率的同时节省算力资源。
随着被追踪人员在场景中移动,其对应的姿态质量缓冲区会依据姿态角度、像素密度和光照等指标,持续填充最优兴趣区域。每个新兴趣区域仅在评分高于缓冲区最弱帧时才会替换之。随着时间推移,劣质角度与模糊帧被逐步过滤,确保输入识别模型的数据始终可靠。
系统检测到的首个高质量兴趣区域可立即级联至识别模型,在姿态质量缓冲区持续填充的同时完成初步身份识别。一旦缓冲区达到预设阈值,系统随即执行批量处理以精化结果。识别输出通过贝叶斯更新进行融合,生成累积置信度评分,有效将多个低置信度匹配结果叠加转化为单一高确定性识别结论。
从数学角度来看,两个相互独立的70%匹配结果所提供的确定性,高于单个90%的匹配结果。这一架构设计确保了时序稳定性,并对噪声和异常值具有较强抗干扰能力——一旦通过多帧高质量图像确立高置信度身份,来自模糊帧或短暂遮挡的瞬时数据将不会推翻已有的累积证据。
系统还设有覆盖门控机制,专门处理目标仅在单帧中清晰出现的情况。若某个传入兴趣区域同时满足高质量正面姿态与高置信度匹配,系统将立即判定识别结果可靠,触发即时告警,并可配置为覆盖现有的低质量数据缓冲区。该机制有效避免了时序盲区,确保即便对目标的高质量捕捉仅昙花一现,也能成功完成身份识别。
嫌疑人追踪与武器检测联合流水线
接下来,系统将嫌疑人追踪器与实时武器检测相结合,专为多模型并发场景而设计,开发者可通过并行运行多种分析模型轻松扩展系统功能。
为最大化检测可靠性,每名目标以人体与人脸检测对的形式呈现。系统在每帧上并行运行人体与人脸检测模型,构建双路径追踪:当身体被人群或物体遮挡时仍可识别人脸,当人脸不可见时仍可追踪人体。应用程序通过动态映射重叠检测结果,为每名目标维持持久化身份标识。
流水线配置确保不丢帧:若新帧到达时识别任务尚未完成,剩余任务将被异步调度至后续检测中,使系统能够随时间推移对整个场景进行迭代扫描与解析,同时不影响摄像头吞吐量(类似人类处理场景的方式,但速度快得多)。
整套方案遵循"快速提交、持续精化"的设计理念:以第一个高质量匹配结果建立低延迟初始身份,同时维护姿态质量缓冲区以持续提升确定性,配合覆盖门控机制确保即便是短暂的高质量捕捉也能成功识别。
在界面管理方面,系统以高分辨率兴趣区域网格(全景视图)展示所有被追踪人员。借助完整的3300万像素分辨率,操作员可对远距离目标保持清晰可见,避免在普通显示器上因分辨率降采样而导致目标丢失。界面采用双向联动设计:将光标悬停于网格中的某人时,系统会在原始视频流中画线标注其位置,反之亦然。操作员可一键切换,在每人的实时画面与姿态质量缓冲区最优截图之间自由切换。
武器检测演示方案
考虑到在展厅展示真实武器既不现实也存在风险,本次演示选用了一款来自更古典时代的"武器"——光剑。具体而言,选取了Count Dooku的独特弯柄光剑作为检测目标,其独特的弯曲手柄设计高度还原了战术警棍、刀刃武器或枪支消音器的几何形态特征,能够在真实多摄像头8K原生推理环境中实现高精度检测,兼具视觉冲击力与零风险的特点。
Axelera监控方案配置(ISC West 2026展示版本):
嫌疑人监控名单:Axelera员工作为嫌疑人身份追踪的主要目标进行注册登记
武器检测:基于Ultralytics YOLOv8l训练的定制光剑检测模型充当武器检测器
8K摄像头配置:两台Axis Q1809-LE 8K IP摄像机部署于展台顶部,俯瞰展厅全景
8K显示屏:75英寸8K显示器左侧展示两路主视频流(降采样),右侧展示全景视图网格
焦点视图单元:网格内设置大面积区域用于突出显示高优先级武器告警;无告警时,该区域切换为展台内部4K摄像头实时画面,供访客互动
个人防护装备(PPE)合规验证:当4K展台摄像头检测到身着完整PPE服装的人员时,界面亮起绿色盾牌图标以示合规
边缘至云端编排:检测触发展台现场告警的同时,自动向ServiceNow推送事件工单,供远程响应处理
此次演示融合了多方合作成果:Digica提供人脸检测与识别模型;Innowise利用Synthera合成数据与真实图像混合数据集开发光剑检测模型;SpanIdea贡献了能够区分普通参观者与建筑工人的PPE检测模型。
硬件配置与性能表现
为实现多路8K视频流的多模型实时推理,系统采用ORIGIN L-Class V2工作站,搭载Intel Xeon W7-3565X 32核处理器,并配备独立GPU负责视觉流水线处理(解码与8K渲染)。
计算核心由三块Axelera 4芯片Metis卡构成,共提供48个AIPU核心,峰值并行处理能力达2.5 PetaOPS,足以支撑高分辨率切片处理与模型推理所需的算力。系统通过Ubiquiti Switch Pro XG 24 PoE交换机接入展台基础设施,为AXIS 8K摄像机提供高带宽数据传输与供电保障。
在8K分辨率下运行监控方案,对实时响应能力提出了极高的吞吐量要求,系统关键性能指标如下:
切片吞吐量:完整配置方案下,系统处理速度达288块/秒。
模型并发数:每块4芯片Metis卡最多并行执行16个模型实例。
系统总容量:三块卡合计在48个核心上运行5个主模型和1个辅助模型,综合吞吐量不低于1440次模型推理/秒,确保所有视频流稳定推理,无热降频或性能劣化。
能效表现:在保持高处理速率的同时,Metis架构维持高效的功耗水平,每块卡典型功耗仅为30至58瓦。
未来展望:Europa架构与生态系统演进
Axelera始终保持持续创新。下一代Europa架构性能较Metis提升3倍,集成片上视频解码与向量引擎以加速预处理,为下一代监控系统提供充裕的AI算力余量。
与此同时,Voyager流水线对自定义Python逻辑的支持,标志着迈向Python友好型Pipeline Builder API的重要第一步,赋予开发者充分自由,以高性能执行方式构建复杂且线程安全的流水线,直接践行Axelera让AI普惠大众的使命。
Axelera不断壮大的生态系统为客户提供了日益丰富的模型与能力选择,可灵活集成至各类解决方案中。Axelera蓝图支持开发者将官方模型库与ISV合作伙伴模型自由组合,实现超越简单告警的自主边缘响应——在本地发起实时防御协议,同时大幅降低软件成本并加速产品上市进程。
Axelera在三项核心需求上实现了独特突破:
易用性:可针对嵌入式、桌面及企业级硬件进行快速参数化定制。
灵活性:在单一模块化流水线内管理多样化任务与复杂数据流需求。
性能:Voyager SDK负责处理底层繁杂工作,包括跨摄像机、解码器、主机CPU与Metis硬件的多流线程、缓冲区共享与同步。
通过提供这些基础硬件与软件构建模块,Axelera AI正在推动高性能安全系统的规模化落地,助力客户从容应对持续演进的安全威胁。
——Doug Watt,Axelera AI应用工程总监
Q&A
Q1:Axelera Metis AIPU在多路8K视频流处理中的性能表现如何?
A:三块Axelera 4芯片Metis卡共提供48个AIPU核心,峰值并行处理能力达2.5 PetaOPS。系统在完整配置下可达到288块切片/秒的处理速度,综合推理吞吐量不低于1440次模型推理/秒,每块卡典型功耗仅30至58瓦,在保持高性能的同时兼顾能效表现。
Q2:Voyager SDK的姿态质量缓冲区机制是如何提升人脸识别准确率的?
A:系统为每个追踪ID构建姿态质量缓冲区,依据姿态角度、像素密度和光照等指标持续填充最优兴趣区域。新帧仅在评分高于缓冲区最弱帧时才会替换。识别结果通过贝叶斯更新融合,生成累积置信度评分,有效将多个低置信度匹配转化为高确定性识别结论,显著降低漏识与误识率。
Q3:Axelera下一代Europa架构相比Metis有哪些提升?
A:Europa架构性能较Metis提升3倍,集成了片上视频解码与向量引擎,可加速预处理流程,为下一代监控系统提供更充裕的AI算力余量。同时,Voyager流水线将引入Python友好型Pipeline Builder API,赋予开发者更大的自由度,以高性能方式构建复杂且线程安全的流水线。
好文章,需要你的鼓励
亚马逊现以949美元的价格销售13英寸M5 MacBook Air,相比苹果官方售价1099美元节省150美元。这是2026款M5 MacBook Air入门机型,也是目前可追踪到的最低价之一。与此同时,15英寸入门款已降至历史最低,优惠幅度达199美元。预计在阵亡将士纪念日前后,13英寸多色款将进一步降价,是升级至苹果最新M5芯片机型的绝佳时机。
清华大学等机构提出首个实时双工多模态交互评测基准Omni-DuplexEval,含660个视频、9项任务,揭示当前最佳AI模型综合得分仅39.6分,远低于人类81.8分。
阿里云在新加坡举办首届国际Qwen大会,发布旗舰模型Qwen 3.7-Max,该模型拥有超过1万亿参数及100万token上下文窗口,支持自主运行35小时。大会同步推出AI原生平台Qwen Cloud及JVS Agent Suite等产品。阿里云还联合新加坡职工总会及ST Telemedia,启动面向逾1000家中小企业的AI技能培训计划,探索"AI服务于劳动者"的发展路径。
上交大与腾讯ARCLab提出SGT方法,通过将图像分割作为生成代理任务,有效打通统一多模态模型中理解与生成两种能力的表示空间,在多个主流评测上取得一致性提升。