韩国电信巨头SK Telecom(SKT)正在建设主权人工智能基础设施,该基础设施采用来自Supermicro的英伟达Blackwell服务器和Vast Data的AI操作系统。
这一被命名为"Haein Cluster"的新基础设施是SKT从传统电信公司向AI优先公司转型的核心。该基础设施专为支持电信公司的Petasus AI云服务而设计,将满足AI模型开发的需求,同时确保所有数据和处理都在韩国境内进行。该基础设施已被选为科学技术部AI计算租赁项目,将用于开发国家AI基础模型。
传统的基于物理裸机环境的AI基础设施通常需要几天或几周时间来配置新的工作负载,这对开发者和企业来说是一个主要瓶颈。SKT通过部署虚拟化AI基础设施显著缩短了这一时间,可以在短短10分钟内启动GPU环境,同时保持与物理裸机系统相当的性能水平。
SKT AI数据中心实验室副总裁兼负责人DK Lee表示,Vast Data在帮助电信公司从传统物理裸机部署转向完全虚拟化的生产级AI云方面发挥了重要作用。"Vast AI操作系统提供了支持下一代主权AI工作负载所需的性能、简便性和灵活性,让我们有信心快速、安全地扩展。"他补充道。
Petasus AI云本质上是一种GPU即服务,构建在Vast的分解式共享一切(DASE)架构上,运行在Supermicro的英伟达HGX服务器上。这创建了一个高吞吐量、安全的多租户环境,能够同时支持大规模AI训练和实时推理。
该服务专为企业级正常运行时间和弹性而设计,运营开销极小,允许为每个租户动态分配GPU、存储和网络资源。AI应用程序开发者还可以期望获得用于完整生命周期AI开发和部署的统一管道。还有协议灵活性,无需客户端网关,简化了韩国政府、研究机构和企业AI客户的访问。
"SK Telecom正在定义国家级AI基础设施的未来,Vast很自豪能够支持他们的愿景,"Vast Data亚太地区副总裁Sunil Chavan说。"通过消除数据移动、配置和安全方面的传统瓶颈,Vast正在帮助SKT推出一个主权且安全的AI基础设施,提供规模化的速度和灵活性。"
SKT一直在通过其"AI to Everywhere"倡议推动AI在其业务中的使用,从提供AI驱动的服务到改善客户体验和扩展机器人能力。
该倡议建立在SKT多年来推出的一系列AI能力基础上,包括使用OpenAI GPT模型处理客户请求的AI聊天机器人。该电信公司还开发了自己的Sapeon AI芯片,这些芯片正在其自己的神经处理单元农场中使用,也被基于OpenStack的云服务提供商NHN Cloud和半导体公司SK海力士的智能工厂使用。
Q&A
Q1:Haein Cluster是什么?有什么作用?
A:Haein Cluster是SK Telecom建设的主权人工智能基础设施,采用英伟达Blackwell服务器和Vast Data的AI操作系统。它是SKT从传统电信公司向AI优先公司转型的核心,专为支持Petasus AI云服务而设计,确保所有数据和处理都在韩国境内进行,并将用于开发国家AI基础模型。
Q2:Petasus AI云服务相比传统AI基础设施有什么优势?
A:传统的AI基础设施通常需要几天或几周时间来配置新的工作负载,而Petasus AI云通过虚拟化技术可以在短短10分钟内启动GPU环境,同时保持与物理裸机系统相当的性能水平。它本质上是一种GPU即服务,能够同时支持大规模AI训练和实时推理。
Q3:SK Telecom在AI领域还有哪些布局?
A:SKT通过"AI to Everywhere"倡议在多个领域推动AI应用,包括提供AI驱动的服务、改善客户体验和扩展机器人能力。公司还开发了使用OpenAI GPT模型的AI聊天机器人处理客户请求,以及自主研发的Sapeon AI芯片,这些芯片被应用于神经处理单元农场、云服务和智能工厂。
好文章,需要你的鼓励
CPU架构讨论常聚焦于不同指令集的竞争,但实际上在单一系统中使用多种CPU架构已成常态。x86、Arm和RISC-V各有优劣,AI技术的兴起更推动了对性能功耗比的极致需求。当前x86仍主导PC和服务器市场,Arm凭借庞大生态系统在移动和嵌入式领域领先,RISC-V作为开源架构展现巨大潜力。未来芯片设计将更多采用异构计算,多种架构协同工作成为趋势。
KAIST AI团队通过深入分析视频生成AI的内部机制,发现了负责交互理解的关键层,并开发出MATRIX框架来专门优化这些层。该技术通过语义定位对齐和语义传播对齐两个组件,显著提升了AI对"谁对谁做了什么"的理解能力,在交互准确性上提升约30%,为AI视频生成的实用化应用奠定了重要基础。
Vast Data与云计算公司CoreWeave签署了价值11.7亿美元的多年期软件许可协议,这标志着AI基础设施存储市场的重要转折点。该协议涵盖Vast Data的通用存储层及高级数据平台服务,将帮助CoreWeave提供更全面的AI服务。业内专家认为,随着AI集群规模不断扩大,存储系统在AI基础设施中的占比可能从目前的1.9%提升至3-5%,未来五年全球AI存储市场规模将达到900亿至2000亿美元。
乔治亚理工学院和微软研究团队提出了NorMuon优化器,通过结合Muon的正交化技术与神经元级自适应学习率,在1.1B参数模型上实现了21.74%的训练效率提升。该方法同时保持了Muon的内存优势,相比Adam节省约50%内存使用量,并开发了高效的FSDP2分布式实现,为大规模AI模型训练提供了实用的优化方案。