企业AI服务的编排框架承担着多重功能。它们不仅规定了应用程序或智能体如何协同工作,还应允许管理员管理工作流程和智能体,并对系统进行审计。
随着企业开始扩展AI服务并将其投入生产,构建可管理、可追踪、可审计且稳健的管道,确保智能体完全按预期运行至关重要。如果缺乏这些控制措施,组织可能无法了解AI系统中发生的情况,只有在出现问题或违反法规时才会发现问题,届时为时已晚。
企业编排公司Airia的总裁Kevin Kiley在接受VentureBeat采访时表示,框架必须包含可审计性和可追溯性。
"拥有这种可观测性并能够回顾审计日志,显示在什么时间点提供了什么信息,这一点至关重要,"Kiley说。"你必须知道这是恶意行为者、不知道自己在分享信息的内部员工,还是系统出现了幻觉。你需要有这样的记录。"
理想情况下,稳健性和审计追踪应该在AI系统的早期阶段就内置其中。在部署前了解新AI应用程序或智能体的潜在风险,并确保它们持续符合标准,有助于缓解将AI投入生产的担忧。
然而,组织最初在设计系统时并未考虑可追溯性和可审计性。许多AI试点项目开始时都是实验性的,没有编排层或审计追踪。
企业现在面临的重大问题是如何管理所有智能体和应用程序,确保管道保持稳健,当出现问题时能够知道出了什么问题并监控AI性能。
选择合适的方法
专家表示,在构建任何AI应用程序之前,组织需要先清点其数据。如果公司知道允许AI系统访问哪些数据,以及用哪些数据对模型进行了微调,他们就有了比较长期性能的基准。
DataDog产品副总裁Yrieix Garnier在接受VentureBeat采访时说:"当你运行这些AI系统时,更多的是关于我可以验证什么样的数据来确保我的系统实际运行正常。这实际上很难做到,要理解我有正确的参考系统来验证AI解决方案。"
一旦组织识别并定位其数据,就需要建立数据集版本控制——本质上是分配时间戳或版本号——以使实验可重现并了解模型发生了什么变化。这些数据集和模型、使用这些特定模型或智能体的任何应用程序、授权用户和基准运行时数据都可以加载到编排或可观测性平台中。
就像选择构建基础模型时一样,编排团队需要考虑透明度和开放性。虽然一些闭源编排系统具有众多优势,但更多开源平台也可能提供一些企业重视的好处,比如提高决策系统的可见性。
MLFlow、LangChain和Grafana等开源平台为智能体和模型提供精细和灵活的指令和监控。企业可以选择通过单一的端到端平台(如DataDog)开发其AI管道,或使用AWS的各种互连工具。
企业的另一个考虑因素是接入将智能体和应用程序响应映射到合规工具或负责任AI政策的系统。AWS和微软都提供跟踪AI工具以及它们与用户设置的防护栏和其他政策的遵循程度的服务。
Kiley表示,企业在构建这些可靠管道时的一个考虑因素是选择更透明的系统。对于Kiley来说,完全看不到AI系统如何工作是行不通的。
"无论用例或行业是什么,你都会遇到需要灵活性的情况,而封闭系统是行不通的。市场上有一些提供商拥有出色的工具,但那更像是一个黑盒子。我不知道它是如何得出这些决定的。我无法在我可能想要的时候进行拦截或干预,"他说。
好文章,需要你的鼓励
微软近年来频繁出现技术故障和服务中断,从Windows更新删除用户文件到Azure云服务因配置错误而崩溃,质量控制问题愈发突出。2014年公司大幅裁减测试团队后,采用敏捷开发模式替代传统测试方法,但结果并不理想。虽然Windows生态系统庞大复杂,某些问题在所难免,但Azure作为微软核心云服务,反复因配置变更导致客户服务中断,已不仅仅是质量控制问题,更是对公司技术能力的质疑。
延世大学研究团队通过分析AI推理过程中的信息密度模式,发现成功的AI推理遵循特定规律:局部信息分布平稳但全局可以不均匀。这一发现颠覆了传统的均匀信息密度假说在AI领域的应用,为构建更可靠的AI推理系统提供了新思路,在数学竞赛等高难度任务中显著提升了AI的推理准确率。
当团队准备部署大语言模型时,面临开源与闭源的选择。专家讨论显示,美国在开源AI领域相对落后,而中国有更多开源模型。开源系统建立在信任基础上,需要开放数据、模型架构和参数。然而,即使是被称为"开源"的DeepSeek也并非完全开源。企业客户往往倾向于闭源系统,但开源权重模型仍能提供基础设施选择自由。AI主权成为国家安全考量,各国希望控制本地化AI发展命运。
蒙特利尔大学团队发现让AI"分段思考"的革命性方法Delethink,通过模仿人类推理模式将长篇思考分解为固定长度块,仅保留关键信息摘要。1.5B小模型击败传统大模型,训练成本降至四分之一,计算复杂度从平方级降为线性级,能处理十万词汇超长推理,为高效AI推理开辟新道路。