企业在大规模人工智能 (AI) 项目上的投入,正不断引领它们跨入超级计算的领域 —— 无论企业是否将此称为超级计算 —— 据惠普企业(HPE)高性能计算 (HPC) 与 AI 基础设施解决方案高级副总裁兼总经理 Trish Damkroger 指出。
Damkroger 在近期接受 Computer Weekly 采访时指出,构成现代 AI 基础设施的基本原则 —— 海量计算能力、高密度配置以及扩展架构 —— 与传统超级计算有着直接对应的关系。
“无论你是否称之为超级计算,其实都是在谈论超级计算,”她说道。“这本质上是密集式计算和扩展架构,”她补充,并指出不断增长的算力需求是一个明显信号,同时她提到与客户讨论建设一吉瓦数据中心的情况,这已逐渐成为常态。
虽然“超级计算”一词可能会让人联想到科研机构,但 Damkroger 表示,一些行业也在利用 HPC 来运行 AI 应用。她举例说明,一个量化交易基金正考虑利用超级计算机,因为这种机器对于需要直接液冷支持的高密度 AI 工作负载来说,更具成本效益。
此外,韩国的 SK Telecom 也在利用超级计算来训练基于 OpenAI 的 GPT-3 的大型韩语语言模型。这些模型为该电信公司移动网络中的 AI 服务及应用提供动力。HPE 则提供了一套集成的高性能架构,以支持大规模训练与部署。
在日本,东洋轮胎采用了搭载 HPE Cray XD 系统的 HPE GreenLake,加速了用于轮胎设计模拟的运算。通过性能提升三倍的优势,该公司如今能够在一半的时间内完成复杂的大规模模拟,从而利用 HPC 与 AI 加速产品开发。
事实上,AI 的不断普及推动了亚太 (APAC) 地区对 HPC 系统的兴趣。“去年,我们在亚太地区的 AI 销售额仅次于北美,而这在以往并不常见,”Damkroger 说道。“该地区的 AI 领域正迎来巨大发展。”
为了满足各类企业需求,HPE 提供了一套灵活的软件策略。其中包括 AI 工厂,允许客户在 HPE 的集群管理软件之上选择开源框架,并通过 Morpheus 混合云管理平台进行编排。对于寻求更即插即用功能的用户,Damkroger 表示 HPE 的 Private Cloud AI 是一项精心策划的产品,它可以让 AI 与 IT 团队进行实验并扩展 AI 项目。“这就像一键启用 AI 的简单按钮,”她补充道。
尽管 AI 技术的进步与广泛采用已经取得显著发展,但找到真正利用 HPC 实现变革性企业 AI 应用的案例仍然是一项持续的探索。“如果具体看企业中的 AI 应用,确实有一些优秀的案例,但我认为我们还没有发现那些最惊人的应用,”Damkroger 坦言。
尽管内部效率提升(如利用大语言模型编写服务文档)极具价值,但她表示,“我不确定我们是否找到了那款足以抵消高昂成本的杀手级应用,”她指出,目前企业在广泛采用 HPC 辅助 AI 时所面临的主要挑战包括初期基础设施投资、功耗需求以及持续的人才短缺。
针对大多数企业首先选择利用公共云来运行 HPC 和 AI 工作负载的现状,Damkroger 表示,对于长期且密集的使用场景,将 HPC 部署在本地会更具成本效益。
“我们发现,在 HPC 领域,如果你的使用率超过 70%,本地部署会更加经济实惠,”Damkroger 说道。然而,她也承认公共云在探索性研究和低需求场景中的作用,并补充说,数据安全问题同样是促使敏感 HPC 工作负载倾向于本地部署的关键因素。
回顾 HPE 在 HPC 领域的深厚积淀 —— 包含即将迎来首台超级计算机 50 周年的 Cray 传承 —— Damkroger 表示:“现阶段液体冷却技术如此突出,实在让人感到兴奋。我们终于看到过去 50 年所做所有工作的成果,并将其优势尽情发挥出来。”
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
MIT研究团队提出递归语言模型(RLM),通过将长文本存储在外部编程环境中,让AI能够编写代码来探索和分解文本,并递归调用自身处理子任务。该方法成功处理了比传统模型大两个数量级的文本长度,在多项长文本任务上显著优于现有方法,同时保持了相当的成本效率,为AI处理超长文本提供了全新解决方案。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
华为研究团队推出SWE-Lego框架,通过混合数据集、改进监督学习和测试时扩展三大创新,让8B参数AI模型在代码自动修复任务上击败32B对手。该系统在SWE-bench Verified测试中达到42.2%成功率,加上扩展技术后提升至49.6%,证明了精巧方法设计胜过简单规模扩展的技术理念。