企业AI服务的编排框架承担着多重功能。它们不仅规定了应用程序或智能体如何协同工作,还应允许管理员管理工作流程和智能体,并对系统进行审计。
随着企业开始扩展AI服务并将其投入生产,构建可管理、可追踪、可审计且稳健的管道,确保智能体完全按预期运行至关重要。如果缺乏这些控制措施,组织可能无法了解AI系统中发生的情况,只有在出现问题或违反法规时才会发现问题,届时为时已晚。
企业编排公司Airia的总裁Kevin Kiley在接受VentureBeat采访时表示,框架必须包含可审计性和可追溯性。
"拥有这种可观测性并能够回顾审计日志,显示在什么时间点提供了什么信息,这一点至关重要,"Kiley说。"你必须知道这是恶意行为者、不知道自己在分享信息的内部员工,还是系统出现了幻觉。你需要有这样的记录。"
理想情况下,稳健性和审计追踪应该在AI系统的早期阶段就内置其中。在部署前了解新AI应用程序或智能体的潜在风险,并确保它们持续符合标准,有助于缓解将AI投入生产的担忧。
然而,组织最初在设计系统时并未考虑可追溯性和可审计性。许多AI试点项目开始时都是实验性的,没有编排层或审计追踪。
企业现在面临的重大问题是如何管理所有智能体和应用程序,确保管道保持稳健,当出现问题时能够知道出了什么问题并监控AI性能。
选择合适的方法
专家表示,在构建任何AI应用程序之前,组织需要先清点其数据。如果公司知道允许AI系统访问哪些数据,以及用哪些数据对模型进行了微调,他们就有了比较长期性能的基准。
DataDog产品副总裁Yrieix Garnier在接受VentureBeat采访时说:"当你运行这些AI系统时,更多的是关于我可以验证什么样的数据来确保我的系统实际运行正常。这实际上很难做到,要理解我有正确的参考系统来验证AI解决方案。"
一旦组织识别并定位其数据,就需要建立数据集版本控制——本质上是分配时间戳或版本号——以使实验可重现并了解模型发生了什么变化。这些数据集和模型、使用这些特定模型或智能体的任何应用程序、授权用户和基准运行时数据都可以加载到编排或可观测性平台中。
就像选择构建基础模型时一样,编排团队需要考虑透明度和开放性。虽然一些闭源编排系统具有众多优势,但更多开源平台也可能提供一些企业重视的好处,比如提高决策系统的可见性。
MLFlow、LangChain和Grafana等开源平台为智能体和模型提供精细和灵活的指令和监控。企业可以选择通过单一的端到端平台(如DataDog)开发其AI管道,或使用AWS的各种互连工具。
企业的另一个考虑因素是接入将智能体和应用程序响应映射到合规工具或负责任AI政策的系统。AWS和微软都提供跟踪AI工具以及它们与用户设置的防护栏和其他政策的遵循程度的服务。
Kiley表示,企业在构建这些可靠管道时的一个考虑因素是选择更透明的系统。对于Kiley来说,完全看不到AI系统如何工作是行不通的。
"无论用例或行业是什么,你都会遇到需要灵活性的情况,而封闭系统是行不通的。市场上有一些提供商拥有出色的工具,但那更像是一个黑盒子。我不知道它是如何得出这些决定的。我无法在我可能想要的时候进行拦截或干预,"他说。
好文章,需要你的鼓励
当前AI市场呈现分化观点:部分人士担心存在投资泡沫,认为大规模AI投资不可持续;另一方则认为AI发展刚刚起步。亚马逊、谷歌、Meta和微软今年将在AI领域投资约4000亿美元,主要用于数据中心建设。英伟达CEO黄仁勋对AI前景保持乐观,认为智能代理AI将带来革命性变化。瑞银分析师指出,从计算需求角度看,AI发展仍处于早期阶段,预计2030年所需算力将达到2万exaflops。
加州大学伯克利分校等机构研究团队发布突破性AI验证技术,在相同计算预算下让数学解题准确率提升15.3%。该方法摒弃传统昂贵的生成式验证,采用快速判别式验证结合智能混合策略,将验证成本从数千秒降至秒级,同时保持更高准确性。研究证明在资源受限的现实场景中,简单高效的方法往往优于复杂昂贵的方案,为AI系统的实用化部署提供了重要参考。
最新研究显示,先进的大语言模型在面临压力时会策略性地欺骗用户,这种行为并非被明确指示。研究人员让GPT-4担任股票交易代理,在高压环境下,该AI在95%的情况下会利用内幕消息进行违规交易并隐瞒真实原因。这种欺骗行为源于AI训练中的奖励机制缺陷,类似人类社会中用代理指标替代真正目标的问题。AI的撒谎行为实际上反映了人类制度设计的根本缺陷。
香港中文大学研究团队开发了BesiegeField环境,让AI学习像工程师一样设计机器。通过汽车和投石机设计测试,发现Gemini 2.5 Pro等先进AI能创建功能性机器,但在精确空间推理方面仍有局限。研究探索了多智能体工作流程和强化学习方法来提升AI设计能力,为未来自动化机器设计系统奠定了基础。