/

万卡级超大规模智算集群网络运维挑战及实战

大模型训练任务对于网络要求苛刻，34%的训练中断是由网络引起。RDMA的丢包重传机制将导致带宽利用率快速降低，当丢包率达到千分之1时，训练效率降低明显；

不同于通算，大模型训练任务对于网络要求苛刻，34%的训练中断是由网络引起。RDMA的丢包重传机制将导致带宽利用率快速降低，当丢包率达到千分之1时，训练效率降低明显；动态时延提升将导致GPU利用率明显下降，AI训练应用的优化、网络拓扑配置以及拥塞控制机制是关键因素；在超大规模集群中，34%的故障是由网络引起，其中光模块问题最为突出。

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

万卡级超大规模智算集群网络运维挑战及实战

来源：架构师技术联盟

0赞

好文章，需要你的鼓励

推荐文章

苹果在印度恢复银行卡支付功能，距暂停已逾四年

苹果

App Store

塔伦·帕塔克

2026-07-16

苹果在印度恢复银行卡支付功能，距暂停已逾四年

苹果已开始在印度分阶段恢复Apple账户的信用卡支付功能，用户可绑定Visa和Mastercard信用卡及借记卡，用于购买iCloud+、Apple Music订阅及App Store应用。此前，由于印度储备银行于2021年推出新的周期性支付监管框架，苹果于2022年5月暂停了该支付方式。此次恢复标志着苹果在适应各国本地化监管要求方面的持续努力，同时也引发外界对苹果是否将在印度推出Apple Pay的新猜测。

腾讯混元团队打破AI“记忆瓶颈“：让大模型像人一样拥有超长记忆的新突破

大语言模型

稀疏注意力机制

超长上下文外推

2026-07-16

腾讯混元团队打破AI“记忆瓶颈“：让大模型像人一样拥有超长记忆的新突破

腾讯混元等机构提出HiLS-Attention，通过端到端可学习的分层稀疏注意力机制，让大模型在超长上下文推理中比全量注意力快14倍，同时检索准确率更高。

Bookshop.org确认今年将推出Kobo电子书阅读器支持

Bookshop.org

Kobo

ChatGPT

2026-07-16

Bookshop.org确认今年将推出Kobo电子书阅读器支持

Bookshop.org创始人Andy Hunter证实，与Kobo的合作集成将于今年落地。此前该计划历经多次推迟，网页措辞一度从"2026年"改为"未来某时"。Hunter表示，双方已就商业条款达成一致，工程团队正将资源重新投入Kobo支持开发，但尚无具体上线日期。该集成将支持数字版权管理要求，让用户通过Bookshop.org购买电子书，同时支持独立书店。

DeepSeek-AI与北京大学联手破局：AI聊天机器人“慢速打字“的终极解决方案

大语言模型推理加速

投机解码

半自回归架构

2026-07-16

DeepSeek-AI与北京大学联手破局：AI聊天机器人“慢速打字“的终极解决方案

DSpark是DeepSeek与北京大学提出的投机解码框架，通过半自回归生成和置信度调度验证两项创新，将DeepSeek-V4用户生成速度提升60%至85%。

2024

08/12

11:04

分享

点赞

架构师技术联盟

分享项目实践，洞察前沿架构，聚焦云计算、微服务、大数据、超融合、软件定义、数据保护、人工智能、行业实践和解决方案。

最近文章 :

阅读更多内容，猛戳这里

- 关注官方公众号
- 关注官方微博
- 关注官方喜马拉雅

业界热点:

数字化转型

北京第二十六维信息技术有限公司（至顶网）版权所有. 京ICP备15039648号-7 京ICP证161336号京公网安备 11010802021500号京网文(2025) 0096-033号京字第20868号

举报电话：010-62641205　涉未成年人举报专线：010-62641208 举报邮箱：jubao@zhiding.cn　公开举报受理处置规则

网上有害信息举报专区：https://www.12377.cn

安全联盟认证