AI热潮面临着功耗问题,而这不仅仅是电力问题。随着生成式模型规模不断扩大,数据中心竞相跟上发展步伐,讨论大多集中在计算能力上:更多GPU、集群和芯片。但深入研究后会发现,真正的制约因素并非机器思考速度,而是基础设施层面的其他问题。
为大语言模型提供超大规模高维数据需要能够以最小损耗和功耗传输每秒TB级数据的基础设施。作为互联网时代默认连接方式的铜质interconnect正开始在这种负载下出现问题。这就是为什么基础设施建设者和投资者将新赌注押在硅光子技术上:这是一种基于光纤的替代方案,使用光而非电来更快、更冷、更高效地传输数据。
周二,以色列硅光子初创公司Teramount宣布完成5000万美元A轮融资,获得AMD Ventures、三星Catalyst基金、Koch Disruptive Technologies和日立创投的支持。他们的主张简单但影响深远:让使用光子而非电子连接芯片变得更容易,从而防止AI的物理系统成为其限制因素。
核心问题在于,铜线在数十年中表现出人意料地良好。但在当今的AI集群中——GPU数量达到数千个,训练运行可能持续数周——传统布线开始看起来不像基础设施,更像瓶颈。功率泄漏、热输出和带宽上限都随着系统规模扩大而加剧。
硅光子技术提供了出路。通过光纤发送光信号,这些系统减少能耗、降低热量并大幅扩展数据吞吐量。Teramount的方法专注于可拆卸的光纤到芯片连接器,针对共封装光学器件进行优化——这是一种将光学组件直接与计算硅集成的设计架构。
根据Yole集团数据,共封装光学器件市场预计到2028年将达到21亿美元,更广泛的硅光子市场预计到2030年将增长至96.5亿美元——几乎是2023年规模的四倍。
Nvidia、英特尔、AMD和博通等科技巨头已经在构建这一未来。但大规模部署的可维护性仍是悬而未决的问题。这就是Teramount等公司开辟空间的地方,不仅构建快速interconnect,还要让它们适合现场应用。
Teramount融资的时机并非偶然。过去两年中,AI的成本(无论是美元还是瓦特)一直在持续上升。
国际能源署估计,到2026年数据中心总用电量可能跃升至1000太瓦时,几乎是目前水平的两倍,主要由生成式AI系统驱动。作为对比,这大约相当于日本的电力需求。
与此同时,路透社Breakingviews专栏最近论证,AI热潮与其说是关于算法,不如说是关于基础设施。它预测未来几年全球数据中心投资可能超过3.7万亿美元——凸显了在提升带宽的同时削减功耗的迫切需求。
关键在于:大部分功耗并非用于计算,而是用于数据传输——在处理器、机架、存储阵列和内存池之间。没有更快、更低功耗的interconnect,AI的规模优势就会变成能源负担。
人们很容易认为AI的未来就是能够编写代码、起草文档或分析图像的强大模型。但在所有这些智能工具背后,是传输数据、管理热量并保持一切平稳运行的物理系统。如果这个基础不牢固,整个系统就会开始出现裂缝。
然而,硅光子技术并非即插即用的解决方案。在成为主流之前,它仍需要新标准、更好的封装技术和更先进的制造工艺。这就是为什么从实验室实验转向现实世界产品需要数年时间。
但这种情况正在改变。Meta、微软和亚马逊等公司已经在其一些最新AI系统中使用光子连接——虽然悄然进行,但越来越一致。
当投资者开始支持AI中艰难、不起眼的部分(如硅光子技术)时,这是行业将其视为必需而非可选的强烈信号。
Teramount的融资反映了更广泛AI基础设施领域的巨大推动力,以及这如何可能成为这个时代赢家的最大决定因素。他们不仅是训练最智能模型的人,更是构建能够大规模、高速处理这些模型而不会使电网过热的系统的人。
"如果AI要从营销流行语演变为持久的创新引擎,其成功将取决于与其支持的算法一样智能高效的基础设施,"Taha说道。"简而言之,AI的未来取决于重新思考将其连接在一起的布线。"
Q&A
Q1:硅光子技术是什么?为什么它对AI很重要?
A:硅光子技术是一种基于光纤的数据传输方案,使用光而非电来传输数据。它对AI很重要是因为能够减少能耗、降低热量并大幅扩展数据吞吐量,解决传统铜质连接在AI大规模应用中的瓶颈问题。
Q2:Teramount公司的核心技术是什么?
A:Teramount专注于可拆卸的光纤到芯片连接器,针对共封装光学器件进行优化。这种设计架构将光学组件直接与计算硅集成,让使用光子而非电子连接芯片变得更容易。
Q3:AI基础设施的功耗问题有多严重?
A:国际能源署估计,到2026年数据中心总用电量可能跃升至1000太瓦时,几乎是目前水平的两倍,大约相当于日本的电力需求。而且大部分功耗并非用于计算,而是用于数据传输。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。