近年来,AI训练一直主导着全球人工智能基础设施的讨论。大规模GPU集群、数据中心建设以及耗电量巨大的模型已经成为AI时代规模的代名词。但AI训练仅仅是热身阶段,真正考验当今AI基础设施的AI推理一直在等待时机,现在正登上舞台中央。
随着AI变得更加多模态,并更深入地嵌入到各种数字平台中,推理正成为未来网络需求的主要驱动力。它也从根本上改变了全球数据中心的运营方式。为了应对激增的推理工作负载,行业必须解决网络中一个关键但经常被忽视的瓶颈——将整个网络结构连接在一起的光学连接。
不断增长的AI推理工作负载
AI推理是AI模型生命周期的"执行"阶段。这时,训练好的模型可以处理未见过的数据来提供答案、生成图像或执行任务。与高度本地化的训练过程不同,推理无处不在——遍布应用程序、企业和消费设备。
随着AI采用率激增,推理工作负载正在成倍增长。虽然以往的技术或数字平台被采用到日常生活中需要数十年时间,但ChatGPT仅用两个月就获得了1亿月活跃用户。现在,我们也见证了AI大规模集成到工作场所和消费者生活中使用的现有数字平台,从搜索到电子邮件、社交媒体等。关键是,将AI嵌入这些工具和应用程序不会导致渐进式采用,而是创造出即时的爆炸性规模。
多模态AI加剧网络需求
当推理工作负载从简单文本转向能够同时处理和生成文本、图像、音频和视频的多模态交互时,这种压力测试变得更加激烈。为了说明问题,来自智能手机的单个高清视频流需要每秒数兆比特的持续带宽。当乘以数百万用户时,在网络中移动的数据量变得惊人。
此外,模型变得更加复杂;推理模型经常将任务分解为多个内部步骤,用户查询会触发数十次后台检索。即使用户的请求看起来简短而简单,网络可能在后台移动兆字节的数据来响应。这一切都增加了应用程序、数据源和AI模型之间的上游和下游流量。
AI优先云的出现和分布
Ciena的一项调查发现,未来几年超过40%的新数据中心建设预计将主要专用于AI,向推理的转变进一步加速了这一转型。激增的推理需求正在推动推理中心和AI优先云区域的激增,这些中心交换大量数据以减少延迟、提高弹性并满足主权要求。随着AI嵌入到日常数字体验中,推理能力必须更接近用户,同时仍能访问集中式数据和模型。
这创造了两种不同但相互依赖的网络能力,现在必须并行扩展。第一种是企业多云访问,企业和应用程序可以轻松访问跨多个云和数据中心的AI服务。第二种是数据中心互连(DCI),在AI数据中心和云区域之间移动数据和推理流量的低延迟连接。随着推理工作负载在全球范围内扩展,这些能力必须协同工作,形成AI优先云的连接结构。
光学连接支撑推理
分布式推理的增长也改变了网络容量的规划方式。DCI和企业多云访问都依赖于能够承载支持AI应用程序的大容量、延迟敏感流量的弹性、可扩展光学基础。
光学连接提供了AI演进下一阶段所需的容量、覆盖范围和效率。先进的光传输技术最大化光纤吞吐量,同时最小化每比特的成本、空间和功耗。同时,自动化网络控制系统通过动态分配带宽、优化流量并在AI工作负载实时转移时维护服务保证,变得至关重要。
从数据中心内连接到DCI光纤路由,光网络提供了支持分布式推理的可扩展主干。没有这种可靠、自适应的结构,AI服务无法在全球范围内一致地交付。
AI革命不仅仅关乎计算,更关乎连接。随着AI推理从简单的文本查询转向丰富的多模态和推理驱动的交互,它将从根本上改变网络中和数据中心内的数据流量模式。展望2026年及以后,AI基础设施的重点必须转向连接组织——网络,这将为AI时代奠定基础。
Q&A
Q1:AI推理和AI训练有什么区别?
A:AI推理是AI模型生命周期的"执行"阶段,是训练好的模型处理未见过的数据来提供答案、生成图像或执行任务的过程。与高度本地化的训练过程不同,推理无处不在——遍布应用程序、企业和消费设备。
Q2:为什么多模态AI会加剧网络需求?
A:多模态AI能同时处理和生成文本、图像、音频和视频,数据量巨大。单个高清视频流就需要每秒数兆比特的持续带宽,当乘以数百万用户时,网络中移动的数据量变得惊人,大大增加了网络负载。
Q3:光学连接在AI推理中起什么作用?
A:光学连接提供AI推理所需的容量、覆盖范围和效率。先进的光传输技术最大化光纤吞吐量,同时最小化每比特的成本、空间和功耗。从数据中心内连接到数据中心互连光纤路由,光网络提供支持分布式推理的可扩展主干。
好文章,需要你的鼓励
火箭实验室(Rocket Lab)宣布计划以现金加股票方式,斥资80亿美元收购主要卫星运营商铱星通信(Iridium Communications),交易预计于2027年中完成。铱星目前运营着由66颗活跃低轨卫星组成的星座网络,拥有约255万活跃用户,2024年营收达8.717亿美元。收购完成后,Rocket Lab计划借助其新型重型运载火箭Neutron及Lightning卫星平台,扩大铱星星座规模,开拓未被覆盖的市场并降低发射成本。
腾讯等机构提出ViQ框架,通过两阶段渐进量化训练,让离散视觉编码在多模态理解和图像重建上同时追平连续特征编码器,训练速度最高提升70%。
音乐流媒体平台Tidal宣布,将于7月中旬启用自动化工具,对完全由AI生成的音乐添加"AI"标识,并移除具有欺诈性质的曲目。平台还将取消AI生成音乐的版税资格,仅向真人创作、演唱的原创音乐开放变现渠道。此外,Tidal明确将高频异常上传、干扰真实艺术家等行为列为欺诈活动。Deezer、Spotify等竞争对手此前已推出类似检测机制,流媒体行业正加速构建AI内容治理体系。
香港科技大学与华为联合提出LISA训练方法,通过让副网络对齐"似然分数",将ControlNet等图像生成模型的训练收敛速度提升逾2.78倍,同时改善图像质量与条件控制精度。