AWS强化基础设施战略，全面升级SageMaker应对AI竞争

AWS通过升级SageMaker机器学习平台来扩展市场地位，新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争，AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权，以及支持本地IDE连接部署。这些更新主要源于客户需求，旨在解决AI模型开发中的实际问题。

AWS通过升级其机器学习和AI模型训练推理平台SageMaker来巩固市场地位，新增可观测性功能、连接编码环境和GPU集群性能管理等能力。

然而，AWS继续面临来自Google和Microsoft的竞争，这些竞争对手同样提供许多有助于加速AI训练和推理的功能。

SageMaker在2024年转型为整合数据源和访问机器学习工具的统一中心，此次新增的功能可以深入洞察模型性能下降的原因，并为AWS客户提供更多计算资源分配控制能力。

其他新功能包括将本地集成开发环境（IDE）连接到SageMaker，使本地编写的AI项目能够在平台上部署。

SageMaker总经理Ankur Mehrotra告诉VentureBeat，这些新更新许多都源于客户需求。

"我们看到客户在开发生成式AI模型时面临的一个挑战是，当出现问题或运行结果不符合预期时，很难找出技术堆栈中哪一层出了问题，"Mehrotra说。

SageMaker HyperPod可观测性功能使工程师能够检查技术堆栈的各个层级，如计算层或网络层。如果出现任何问题或模型变慢，SageMaker可以发出警报并在仪表板上发布指标。

Mehrotra提到他的团队在训练新模型时遇到的实际问题，训练代码开始给GPU造成压力，导致温度波动。他说，如果没有最新工具，开发人员需要几周时间才能识别问题源头并修复。

连接IDE功能

SageMaker已经为AI开发人员提供了两种训练和运行模型的方式。它提供完全托管的IDE访问，如Jupyter Lab或代码编辑器，通过SageMaker无缝运行模型训练代码。考虑到其他工程师更喜欢使用包含所有扩展的本地IDE，AWS也允许他们在本地机器上运行代码。

然而，Mehrotra指出，这意味着本地编码的模型只能在本地运行，如果开发人员想要扩展，这就成了重大挑战。

AWS新增安全远程执行功能，允许客户继续使用他们偏好的IDE——无论是本地还是托管——并连接到SageMaker。

"这项功能现在为他们提供了两全其美的解决方案，如果需要，他们可以在本地IDE上进行开发，但在实际任务执行方面，可以受益于SageMaker的可扩展性，"他说。

计算资源更灵活

AWS在2023年12月推出SageMaker HyperPod，帮助客户管理用于训练模型的服务器集群。类似于CoreWeave等提供商，HyperPod使SageMaker客户能够将未使用的计算能力导向首选位置。HyperPod根据需求模式知道何时调度GPU使用，让组织能够有效平衡资源和成本。

然而，AWS表示许多客户希望在推理方面也有同样的服务。许多推理任务在白天进行，即人们使用模型和应用的时候，而训练通常安排在非高峰时段。

Mehrotra指出，即使在推理环境中，开发人员也可以优先考虑HyperPod应该关注的推理任务。

AI智能体公司H AI的联合创始人兼CTO Laurent Sifre在AWS博客文章中表示，该公司在构建智能体平台时使用了SageMaker HyperPod。

"从训练到推理的无缝过渡简化了我们的工作流程，缩短了产品上市时间，并在实时环境中提供了一致的性能，"Sifre说。

AWS与竞争对手

亚马逊虽然可能没有像云服务竞争对手Google和Microsoft那样提供最引人注目的基础模型，但AWS更专注于为企业构建AI模型、应用或智能体提供基础设施支撑。

除了SageMaker，AWS还提供专门为构建应用和智能体设计的平台Bedrock。

SageMaker已经存在多年，最初作为连接分散的机器学习工具与数据湖的手段。随着生成式AI热潮开始，AI工程师开始使用SageMaker帮助训练大语言模型。然而，Microsoft正在大力推广其Fabric生态系统，已有70%的财富500强企业采用，力争成为数据和AI加速领域的领导者。Google通过Vertex AI在企业AI采用方面也悄然取得进展。

当然，AWS拥有作为使用最广泛的云服务提供商的优势。任何使其众多AI基础设施平台更易于使用的更新都将是有益的。

来源：VentureBeat

0赞

好文章，需要你的鼓励

AWS强化基础设施战略，全面升级SageMaker应对AI竞争

来源：VentureBeat

2025

07/11

15:31

分享

点赞

CES上杨元庆首谈AGI，碾压人类的叙事不会让AI更聪明

CES 2026 | 重大更新：NVIDIA DGX Spark开启“云边端”模式

Gmail新增Gemini驱动AI功能，智能优先级和摘要来袭

研究发现商业AI模型可完整还原《哈利·波特》原著内容

Razer在2026年CES展会推出全息AI伴侣项目

CES 2026：英伟达新架构亮相，AMD发布新芯片，Razer推出AI奇异产品

通过舞蹈认识LimX Dynamics的人形机器人Oli

谷歌为Gmail搜索引入AI概览功能并推出实验性AI智能收件箱

DuRoBo Krono：搭载AI助手的智能手机尺寸电子阅读器

OpenAI推出ChatGPT Health医疗问答功能

Anthropic寻求3500亿美元估值融资100亿美元

OpenAI收购高管教练AI工具Convogo团队

BigQuery如何融合数据与AI实现业务转型

铠侠UFS 4.1闪存承诺提升AI应用性能表现

Google Firebase Studio推出智能体模式实现自动化编程

谷歌为Veo 3增加图像转视频生成功能

英伟达计划推出专为中国市场设计的AI芯片

YouTube新政策旨在减少AI生成的低质量视频内容

Docker推出新功能支持AI智能体开发

欧盟AI新规让科技巨头深恶痛绝的条款

AI流利度的4C框架：为未来职场做好准备

Monday.com推出AI工具助力用户构建、自动化和执行工作

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: