/

万卡级超大规模智算集群网络运维挑战及实战

大模型训练任务对于网络要求苛刻，34%的训练中断是由网络引起。RDMA的丢包重传机制将导致带宽利用率快速降低，当丢包率达到千分之1时，训练效率降低明显；

不同于通算，大模型训练任务对于网络要求苛刻，34%的训练中断是由网络引起。RDMA的丢包重传机制将导致带宽利用率快速降低，当丢包率达到千分之1时，训练效率降低明显；动态时延提升将导致GPU利用率明显下降，AI训练应用的优化、网络拓扑配置以及拥塞控制机制是关键因素；在超大规模集群中，34%的故障是由网络引起，其中光模块问题最为突出。

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

来源：架构师技术联盟

0赞

好文章，需要你的鼓励

推荐文章

大众汽车推进平价电动车战略，两款新车率先下线

电动汽车

新能源技术

平价电动车

2026-06-06

大众汽车推进平价电动车战略，两款新车率先下线

大众汽车旗下ID. Polo与Cupra Raval已在西班牙马托雷尔工厂正式下线投产。两款车型起售价分别为24,995欧元和26,000欧元，均基于MEB+平台打造，搭载37kWh或52kWh电池组，续航里程最高可达454公里。这是大众"电动城市车家族"系列的首批产品，预计今年夏末秋初开始交付。大众集团通过跨品牌资源整合，实现约6亿欧元的成本节约，后续还将推出ID. Cross等新成员。

当AI机器人“自信地“撞向墙壁：STATE16研究院揭示物理AI系统中那些无声无息的致命错误

物理AI安全

运行时授权

静默失效检测

2026-06-05

当AI机器人“自信地“撞向墙壁：STATE16研究院揭示物理AI系统中那些无声无息的致命错误

STATE16研究院这篇综述发现，物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作，却不触发任何报警，并提出在AI输出与物理执行之间建立独立授权层的框架。

三星Health应用迎来AI升级，Galaxy Watch 9发布前夕更新提前揭晓

智能健康

AI生物特征分析

个性化健康评分

2026-06-06

三星Health应用迎来AI升级，Galaxy Watch 9发布前夕更新提前揭晓

三星宣布将于6月8日起为Samsung Health应用推出重磅功能更新，赶在Galaxy Watch 9传闻发布之前落地。新版本将引入多项AI驱动的生物特征分析功能，包括：综合心率、血氧、皮肤温度等数据的每日活力评分（Vitals）、结合体成分数据评估长期心脏健康的心脏健康评分、优化训练强度的每日有氧负荷追踪，以及横向对比用户群体的健身指数。此外，应用界面将重新划分为睡眠、营养、活动、正念和体征五大板块，并新增抗氧化指数、年龄指数和听力保护等个性化功能。

当AI学会“边干边学“：UIUC与微软联合打造的网页智能体训练新范式

人工智能

强化学习

网页智能体

2026-06-05

当AI学会“边干边学“：UIUC与微软联合打造的网页智能体训练新范式

UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据，通过在真实网站上边做边学的强化学习方式，在网页智能体基准上超越了用27万条数据训练的竞争对手。

2024

08/12

11:04

分享

点赞

架构师技术联盟

分享项目实践，洞察前沿架构，聚焦云计算、微服务、大数据、超融合、软件定义、数据保护、人工智能、行业实践和解决方案。

最近文章 :

阅读更多内容，猛戳这里

- 关注官方公众号
- 关注官方微博
- 关注官方喜马拉雅

业界热点:

数字化转型

北京第二十六维信息技术有限公司（至顶网）版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号京网文(2025) 0096-033号京字第20868号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　公开举报受理处置规则

网上有害信息举报专区：https://www.12377.cn

安全联盟认证