企业正在各种应用中测试人工智能,但真正从概念验证(PoC)阶段转入生产环境的项目少之又少:IDC研究显示仅有12%。
亚马逊云科技(AWS)对此问题同样关注,其智能体AI副总裁Swami Sivasubramanian在上周的AWS re:Invent大会主题演讲中重点探讨了这一问题。
他表示,失败的原因并非缺乏人才或投资,而在于组织规划和构建概念验证项目的方式:"大多数实验和概念验证项目在设计时并未考虑生产就绪性。"
生产工作负载要求开发团队不仅要部署少数几个智能体实例,而是要同时部署数百甚至数千个智能体实例,每个都执行协调任务,相互传递上下文,并与庞大的企业系统网络交互。
这与大多数概念验证项目相去甚远,后者可能围绕执行狭窄工作流的单一智能体构建。
Sivasubramanian指出的另一个障碍是,生产工作负载中的智能体必须应对复杂性,包括"大量数据和边缘情况"。
这与在人为清洁环境中运行、使用经过精心设计的提示和可预测输入的净化数据集的概念验证项目不同,这些都掩盖了实时数据的现实情况,如不一致的格式、缺失字段、冲突记录和意外行为。
身份与访问管理也是挑战之一。原型项目可能仅使用单个权限过度的测试账户就能运行,但生产环境不行。
Sivasubramanian说:"在生产环境中,你需要坚如磐石的身份与访问管理来验证用户身份,授权智能体代表用户可以访问哪些工具,并在AWS和第三方服务中管理这些凭据。"
即使克服了这些障碍,将智能体集成到生产工作负载中仍然是一个关键挑战。
"当然,当你转向生产环境时,你的智能体不会独立存在。它将成为更大系统的一部分,这个系统不能因为一个集成出现问题就崩溃,"Sivasubramanian说。
通常,在概念验证中,工程师可以手动连接数据流、推送输入,并将输出转储到文件或测试界面。如果出现问题,他们重启并继续。但这种工作流在生产条件下会崩溃:智能体成为更大、相互依赖系统的一部分,不能每次集成出现问题就崩溃。
然而,Sivasubramanian认为概念验证与生产之间的鸿沟可以缩小。
在他看来,企业可以通过为团队配备将生产就绪性融入开发过程本身的工具来缩小这一差距,专注于敏捷性,同时保持准确性和可靠性。
为了解决构建准确、敏捷智能体系统的担忧,AWS为Bedrock AgentCore添加了情节记忆功能,减轻了开发人员构建自定义内存框架的负担。
该托管模块不是期望团队拼凑自己的向量存储、摘要逻辑和检索层,而是自动捕获交互轨迹,将其压缩为可重用的"情节",并在智能体处理新任务时带来正确的上下文。
类似地,Sivasubramanian还宣布了SageMaker AI中的无服务器模型定制能力,帮助开发人员自动化数据准备、训练、评估和部署。
AI和数据咨询公司Asperitas的云实践负责人Scott Wheeler表示,这种自动化将消除经常阻碍微调工作的繁重基础设施和MLops开销,加速智能体系统部署。
推进减少MLops的努力并未就此止步。Sivasubramanian表示,AWS正在Bedrock中添加强化微调(RFT),使开发人员能够使用自动化强化学习(RL)栈来塑造模型行为。
Wheeler对此表示欢迎,称这将消除构建RL栈的大部分复杂性,包括基础设施、数学和训练管道。
SageMaker HyperPod还获得了无检查点训练,使开发人员能够加速模型训练过程。
为了解决可靠性问题,Sivasubramanian表示AWS正在向Bedrock AgentCore的网关添加策略和评估功能。策略将通过拦截工具调用帮助开发人员执行护栏,评估将帮助开发人员模拟真实世界的智能体行为以在部署前捕获问题。
然而,分析师警告,自主智能体的运营化距离无摩擦还很远。
独立顾问、德勤前首席云战略官David Linthicum说,情节记忆虽然在概念上是一个重要功能,但并非魔法。"它的影响力与企业捕获、标记和管理行为数据的能力成正比。这才是真正的瓶颈。"
"没有严格的数据工程和遥测工作,它有成为复杂架上产品的风险,"Linthicum说。
他还对Bedrock中的RFT功能提出了批评,称虽然该功能试图从RL工作流中抽象复杂性,但它并未消除过程中最复杂的部分,如定义反映业务价值的奖励、构建健壮评估和管理漂移。
"这就是概念验证项目通常失败的地方,"他说。
SageMaker AI中的模型定制能力也是类似情况。
虽然它压缩了MLOps复杂性,但它放大了Linthicum和Wheeler在其他领域的担忧。
"既然你不仅自动化了推理,还自动化了设计选择、数据合成和评估,治理团队将要求对调整了什么、生成了什么数据以及为什么选择了给定模型有清晰的了解,"Linthicum说。
Wheeler表示,有严格监管要求的行业部门可能会将此功能视为仍需要人工审查的辅助工具,而不是设置后就忘记的自动化:"简而言之,价值是真实的,但信任和可审计性,而不是自动化,将决定采用速度。"
Q&A
Q1:为什么企业AI概念验证项目转入生产环境的比例这么低?
A:根据IDC研究,只有12%的概念验证项目能转入生产。主要原因是概念验证项目在设计时并未考虑生产就绪性,它们通常在人工清洁的环境中使用净化数据集运行,无法应对生产环境中的复杂性、大量数据和边缘情况。
Q2:AWS推出的情节记忆功能有什么作用?
A:情节记忆功能是AWS为Bedrock AgentCore添加的新能力,它可以自动捕获智能体的交互轨迹,将其压缩为可重用的"情节",并在智能体处理新任务时提供正确的上下文。这减轻了开发人员构建自定义内存框架的负担。
Q3:强化微调功能能解决智能体开发的哪些问题?
A:AWS在Bedrock中添加的强化微调功能使开发人员能够使用自动化强化学习栈来塑造模型行为。它能消除构建强化学习栈的大部分复杂性,包括基础设施、数学运算和训练管道,但仍需要人工定义奖励机制和管理模型漂移。
好文章,需要你的鼓励
传统AI依赖云端处理存在延迟和隐私问题。越来越多开发者将AI处理从数据中心转移到手机、笔记本等个人设备上。设备端AI具有三大优势:速度更快,无需等待云端响应;隐私更安全,数据不离开设备;成本更低,无需支付云服务费用。目前iPhone已运行30亿参数的设备端AI模型,谷歌Pixel手机也搭载Gemini Nano模型。未来五年内,随着硬件升级和算法优化,设备端AI将实现物体识别、导航翻译等更复杂功能。
这篇论文提出了CJE(因果法官评估)框架,解决了当前LLM评估中的三大致命问题:AI法官偏好倒置、置信区间失效和离线策略评估失败。通过AutoCal-R校准、SIMCal-W权重稳定和OUA不确定性推理,CJE仅用5%的专家标签就达到了99%的排名准确率,成本降低14倍,为AI评估提供了科学可靠的解决方案。
卡内基梅隆大学研究人员开发了一项革命性技术,通过摄像头、AI模型和微型轮子,让咖啡杯、订书机等日常物品能够自主移动到需要的位置。这种"智能物品"技术避免了传统人形机器人的复杂性和安全隐患,通过蓝牙微控制器和AI视觉系统,物品能够识别用户行为并预测需求。虽然技术已相对成熟,但隐私保护和安全性仍是推广前需要解决的关键问题。
NVIDIA团队开发出Fast-FoundationStereo系统,成功解决了立体视觉AI在速度与精度之间的两难选择。通过分而治之的策略,该系统实现了超过10倍的速度提升同时保持高精度,包括知识蒸馏压缩特征提取、神经架构搜索优化成本过滤,以及结构化剪枝精简视差细化。此外,研究团队还构建了包含140万对真实图像的自动伪标注数据集,为立体视觉的实时应用开辟了新道路。