AWS通过升级其机器学习和AI模型训练推理平台SageMaker来巩固市场地位,新增可观测性功能、连接编码环境和GPU集群性能管理等能力。
然而,AWS继续面临来自Google和Microsoft的竞争,这些竞争对手同样提供许多有助于加速AI训练和推理的功能。
SageMaker在2024年转型为整合数据源和访问机器学习工具的统一中心,此次新增的功能可以深入洞察模型性能下降的原因,并为AWS客户提供更多计算资源分配控制能力。
其他新功能包括将本地集成开发环境(IDE)连接到SageMaker,使本地编写的AI项目能够在平台上部署。
SageMaker总经理Ankur Mehrotra告诉VentureBeat,这些新更新许多都源于客户需求。
"我们看到客户在开发生成式AI模型时面临的一个挑战是,当出现问题或运行结果不符合预期时,很难找出技术堆栈中哪一层出了问题,"Mehrotra说。
SageMaker HyperPod可观测性功能使工程师能够检查技术堆栈的各个层级,如计算层或网络层。如果出现任何问题或模型变慢,SageMaker可以发出警报并在仪表板上发布指标。
Mehrotra提到他的团队在训练新模型时遇到的实际问题,训练代码开始给GPU造成压力,导致温度波动。他说,如果没有最新工具,开发人员需要几周时间才能识别问题源头并修复。
连接IDE功能
SageMaker已经为AI开发人员提供了两种训练和运行模型的方式。它提供完全托管的IDE访问,如Jupyter Lab或代码编辑器,通过SageMaker无缝运行模型训练代码。考虑到其他工程师更喜欢使用包含所有扩展的本地IDE,AWS也允许他们在本地机器上运行代码。
然而,Mehrotra指出,这意味着本地编码的模型只能在本地运行,如果开发人员想要扩展,这就成了重大挑战。
AWS新增安全远程执行功能,允许客户继续使用他们偏好的IDE——无论是本地还是托管——并连接到SageMaker。
"这项功能现在为他们提供了两全其美的解决方案,如果需要,他们可以在本地IDE上进行开发,但在实际任务执行方面,可以受益于SageMaker的可扩展性,"他说。
计算资源更灵活
AWS在2023年12月推出SageMaker HyperPod,帮助客户管理用于训练模型的服务器集群。类似于CoreWeave等提供商,HyperPod使SageMaker客户能够将未使用的计算能力导向首选位置。HyperPod根据需求模式知道何时调度GPU使用,让组织能够有效平衡资源和成本。
然而,AWS表示许多客户希望在推理方面也有同样的服务。许多推理任务在白天进行,即人们使用模型和应用的时候,而训练通常安排在非高峰时段。
Mehrotra指出,即使在推理环境中,开发人员也可以优先考虑HyperPod应该关注的推理任务。
AI智能体公司H AI的联合创始人兼CTO Laurent Sifre在AWS博客文章中表示,该公司在构建智能体平台时使用了SageMaker HyperPod。
"从训练到推理的无缝过渡简化了我们的工作流程,缩短了产品上市时间,并在实时环境中提供了一致的性能,"Sifre说。
AWS与竞争对手
亚马逊虽然可能没有像云服务竞争对手Google和Microsoft那样提供最引人注目的基础模型,但AWS更专注于为企业构建AI模型、应用或智能体提供基础设施支撑。
除了SageMaker,AWS还提供专门为构建应用和智能体设计的平台Bedrock。
SageMaker已经存在多年,最初作为连接分散的机器学习工具与数据湖的手段。随着生成式AI热潮开始,AI工程师开始使用SageMaker帮助训练大语言模型。然而,Microsoft正在大力推广其Fabric生态系统,已有70%的财富500强企业采用,力争成为数据和AI加速领域的领导者。Google通过Vertex AI在企业AI采用方面也悄然取得进展。
当然,AWS拥有作为使用最广泛的云服务提供商的优势。任何使其众多AI基础设施平台更易于使用的更新都将是有益的。
好文章,需要你的鼓励
美国网络安全和基础设施安全局指示联邦机构修补影响思科ASA 5500-X系列防火墙设备的两个零日漏洞CVE-2025-20362和CVE-2025-20333。这些漏洞可绕过VPN身份验证并获取root访问权限,已被黑客积极利用。攻击与国家支持的ArcaneDoor黑客活动有关,黑客通过漏洞安装bootkit恶意软件并操控只读存储器实现持久化。思科已发布补丁,CISA要求机构清点易受攻击系统并在今日前完成修补。
康考迪亚大学研究团队通过对比混合量子-经典神经网络与传统模型在三个基准数据集上的表现,发现量子增强模型在准确率、训练速度和资源效率方面均显著优于传统方法。研究显示混合模型的优势随数据集复杂度提升而增强,在CIFAR100上准确率提升9.44%,训练速度提升5-12倍,且参数更少。该成果为实用化量子增强人工智能铺平道路。
TimeWave是一款功能全面的计时器应用,超越了苹果自带时钟应用的功能。它支持创建流式计时器,让用户可以设置连续的任务计时,帮助专注工作。应用采用简洁的黑白设计,融入了Liquid Glass元素。内置冥想、番茄工作法、20-20-20护眼等多种计时模式,支持实时活动显示和Siri快捷指令。免费版提供基础功能,高级版需付费订阅。
沙特KAUST大学团队开发了专门针对阿拉伯语的AI模型家族"Hala",通过创新的"翻译再调优"技术路线,将高质量英语指令数据转化为450万规模的阿拉伯语语料库,训练出350M到9B参数的多个模型。在阿拉伯语专项测试中,Hala在同规模模型中表现最佳,证明了语言专门化策略的有效性,为阿拉伯语AI发展和其他语言的专门化模型提供了可复制的技术方案。