人工智能基础设施正在形成一种新的发展趋势,而大多数人仍在关注错误的方向。所有人都专注于图形处理单元,更多算力、更大集群、更快芯片,这些是头条新闻的焦点。
但AI工厂的真正约束并非算力,而是数据传输。
在每个现代AI系统内部,数据都在不断移动——在GPU之间、跨机架、跨集群。而现在,这种数据移动正在触及瓶颈。不是因为理论上带宽不足,而是因为传输数据的架构根本上存在缺陷。
这就是Resolight.ai公司出现的背景。这家隐形创业公司旨在解决AI基础设施中的隐藏瓶颈,承诺重写AI工厂的物理和经济方程式。当前参与者如英伟达、博通、美满电子、思科系统和超威半导体等,都在与Ayer Labs和Celestial AI等封装光学供应商合作解决互连挑战。Resolight表示其光子处理器可以在数个量级上超越这些方法。
在帕洛阿尔托的theCUBE工作室,我与联合创始人兼首席执行官Ofer Shapiro进行了独家访谈。他描述的不是渐进式改进,而是AI网络的重新架构,这可能改变下一代AI工厂的经济模式。
核心问题:光信号在电信号处转换中的停滞
AI行业已经实现了一个关键转变:从铜线转向光学。封装光学和线性可插拔光学现在是在AI集群间传输大量数据的标准。
但即使数据以光的形式传输,它仍需转换回电信号进行处理和路由。这种转换就是瓶颈所在。
"你建造了一条高速光学高速公路,然后在中间安装了红绿灯,"Shapiro解释道。这个红绿灯就是电子交换机——仍在限制吞吐量、增加延迟并消耗电力。
技术突破:光子处理
Resolight的解决方案是Shapiro所称的光子处理:在整个网络中保持数据在光学域内,消除光-电-光转换的需要。
系统不是以电子方式处理单个比特,而是直接以光的形式批量操作数据。据Shapiro介绍,这种方法可实现:
带宽提高10倍
网络功耗降低约90%
所需交换机减少10倍
微秒级延迟
更少的收发器和故障点
这不仅仅是更快的交换机,而是完全移除传统交换范式。
重要性:网络成为新瓶颈
AI工厂的扩展速度超过了网络目前能够支持的水平。当今的架构在以下方面面临压力:
仅为连接跨机架GPU就需要多层交换
光学连接数量爆炸式增长
主导设计选择的功耗约束
将GPU锁定在特定工作负载的固定基础设施
Shapiro表示,一旦建模数百万个GPU,所需交换机和连接的数量就会爆炸式增长——形成扩展的硬性障碍。
从纵向扩展到横向扩展,再到"全方位扩展"
历史上,AI基础设施一直在以下两者之间权衡:
纵向扩展:机架内高性能、低延迟
横向扩展:跨机架效率较低
Resolight的架构消除了这种区别。其"全方位扩展"愿景实现:
机架内外统一带宽
GPU可在数据中心内动态集群
基础设施适应工作负载类型——训练、推理或全新类型
网络不再决定如何使用算力,软件才是决定因素。这是AI工厂经济学的根本性突破。
系统级效率
将网络复杂性降低一个数量级带来广泛收益:
更少机架用于交换→为GPU提供更多空间
更低总功耗
更简单部署和运营
减少对受限供应链的依赖
数据中心设计最终可以优先考虑算力密度和灵活性,而不是为网络约束过度设计。
创业公司的优势
现有公司专注于渐进式改进——更快端口、更好专用集成电路、稍微提高的效率。Resolight在做不同的事情:打破这些系统构建的模式。
Shapiro强调,这种突破不是来自优化现有设计,而是重新思考信息如何在数据中心间移动。这是典型的创业公司领域。
早期市场信号:大局观
公开层面噪音很少,但私下与领先AI基础设施团队的对话正从介绍快速转向测试计划。挑战已被充分理解——可信的前进道路刚刚到来。
在英伟达GTC大会上,信息很明确:AI等不起。更多算力驱动更多智能,进而驱动更多收入——但前提是系统能够为这些算力提供数据。网络不再是支持功能,它是引擎的传动装置。
而今天,这个传动装置正承受着压力。
结论
AI工厂正在进入新阶段,约束因素正在转变。算力不再是瓶颈,网络才是。
Resolight押注下一波AI基础设施不会仅由更快芯片定义——而是由根本性的新数据移动和处理方式定义。
如果该公司成功,这不仅仅是更好的组件,而是新架构。对于构建下一代AI工厂的投资者和技术专家来说,这就是真正杠杆所在。
Q&A
Q1:Resolight.ai的光子处理技术是什么?
A:Resolight.ai开发的光子处理技术是一种在整个网络中保持数据在光学域内的技术,消除了光-电-光转换的需要。该技术直接以光的形式批量操作数据,而不是以电子方式处理单个比特,从而实现带宽提高10倍、网络功耗降低约90%、所需交换机减少10倍等效果。
Q2:AI基础设施的主要瓶颈在哪里?
A:AI基础设施的主要瓶颈不在算力,而在数据传输。在AI系统内部,数据需要在GPU之间、跨机架、跨集群不断移动,而现有的架构需要将光信号转换为电信号进行处理和路由,这种转换成为了限制吞吐量、增加延迟并消耗电力的主要瓶颈。
Q3:光子处理技术与传统网络架构有什么区别?
A:传统架构即使使用光学传输,也需要将数据转换回电信号进行处理。而光子处理技术完全移除了传统交换范式,在整个网络中保持数据为光的形式,实现"全方位扩展"——提供机架内外统一带宽,允许GPU在数据中心内动态集群,让软件而非网络决定如何使用算力。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。