企业在大规模人工智能 (AI) 项目上的投入,正不断引领它们跨入超级计算的领域 —— 无论企业是否将此称为超级计算 —— 据惠普企业(HPE)高性能计算 (HPC) 与 AI 基础设施解决方案高级副总裁兼总经理 Trish Damkroger 指出。
Damkroger 在近期接受 Computer Weekly 采访时指出,构成现代 AI 基础设施的基本原则 —— 海量计算能力、高密度配置以及扩展架构 —— 与传统超级计算有着直接对应的关系。
“无论你是否称之为超级计算,其实都是在谈论超级计算,”她说道。“这本质上是密集式计算和扩展架构,”她补充,并指出不断增长的算力需求是一个明显信号,同时她提到与客户讨论建设一吉瓦数据中心的情况,这已逐渐成为常态。
虽然“超级计算”一词可能会让人联想到科研机构,但 Damkroger 表示,一些行业也在利用 HPC 来运行 AI 应用。她举例说明,一个量化交易基金正考虑利用超级计算机,因为这种机器对于需要直接液冷支持的高密度 AI 工作负载来说,更具成本效益。
此外,韩国的 SK Telecom 也在利用超级计算来训练基于 OpenAI 的 GPT-3 的大型韩语语言模型。这些模型为该电信公司移动网络中的 AI 服务及应用提供动力。HPE 则提供了一套集成的高性能架构,以支持大规模训练与部署。
在日本,东洋轮胎采用了搭载 HPE Cray XD 系统的 HPE GreenLake,加速了用于轮胎设计模拟的运算。通过性能提升三倍的优势,该公司如今能够在一半的时间内完成复杂的大规模模拟,从而利用 HPC 与 AI 加速产品开发。
事实上,AI 的不断普及推动了亚太 (APAC) 地区对 HPC 系统的兴趣。“去年,我们在亚太地区的 AI 销售额仅次于北美,而这在以往并不常见,”Damkroger 说道。“该地区的 AI 领域正迎来巨大发展。”
为了满足各类企业需求,HPE 提供了一套灵活的软件策略。其中包括 AI 工厂,允许客户在 HPE 的集群管理软件之上选择开源框架,并通过 Morpheus 混合云管理平台进行编排。对于寻求更即插即用功能的用户,Damkroger 表示 HPE 的 Private Cloud AI 是一项精心策划的产品,它可以让 AI 与 IT 团队进行实验并扩展 AI 项目。“这就像一键启用 AI 的简单按钮,”她补充道。
尽管 AI 技术的进步与广泛采用已经取得显著发展,但找到真正利用 HPC 实现变革性企业 AI 应用的案例仍然是一项持续的探索。“如果具体看企业中的 AI 应用,确实有一些优秀的案例,但我认为我们还没有发现那些最惊人的应用,”Damkroger 坦言。
尽管内部效率提升(如利用大语言模型编写服务文档)极具价值,但她表示,“我不确定我们是否找到了那款足以抵消高昂成本的杀手级应用,”她指出,目前企业在广泛采用 HPC 辅助 AI 时所面临的主要挑战包括初期基础设施投资、功耗需求以及持续的人才短缺。
针对大多数企业首先选择利用公共云来运行 HPC 和 AI 工作负载的现状,Damkroger 表示,对于长期且密集的使用场景,将 HPC 部署在本地会更具成本效益。
“我们发现,在 HPC 领域,如果你的使用率超过 70%,本地部署会更加经济实惠,”Damkroger 说道。然而,她也承认公共云在探索性研究和低需求场景中的作用,并补充说,数据安全问题同样是促使敏感 HPC 工作负载倾向于本地部署的关键因素。
回顾 HPE 在 HPC 领域的深厚积淀 —— 包含即将迎来首台超级计算机 50 周年的 Cray 传承 —— Damkroger 表示:“现阶段液体冷却技术如此突出,实在让人感到兴奋。我们终于看到过去 50 年所做所有工作的成果,并将其优势尽情发挥出来。”
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。