Databricks已收购智能体评估与训练软件提供商Quotient AI,旨在帮助企业更可靠地大规模部署生产环境中的智能体。
Quotient AI在一份声明中表示:"Quotient AI的建立目标是缩小智能体评估和持续学习方面的差距。"该公司补充说,这家初创公司的技术将融入其Genie和Agent Bricks产品中,帮助企业监控生产环境中的智能体行为,检测关键问题,并利用这些信号持续改善智能体性能。
分析师表示,此次收购旨在解决CIO们在智能体商业化应用中日益关注的问题:虽然构建原型已变得相对容易,但证明这些系统在复杂企业工作流程中能够可靠运行仍然困难得多。
The Futurum Group首席信息官实践负责人Dion Hinchcliffe表示:"CIO们在智能体部署到生产环境后难以回答基本问题:它为什么做出那个决定,明天是否会有相同表现,以及我们如何验证它没有违反政策或合规要求?"
Hinchcliffe补充说,Quotient AI的技术将提供评估框架和强化学习反馈循环,企业需要这些来系统性地衡量智能体性能,发现故障,并持续帮助完善这些系统在真实企业环境中的行为表现。
对CIO们而言更重要的是,HyperFRAME Research AI堆栈实践负责人Stephanie Walter指出,Quotient的技术并非关于智能体的通用强化学习,而是更加特定领域化的:"他们想帮助你训练一个智能体,它不仅知道如何编程,更知道如何为你的特定数据架构编程,并通过你的特定合规检查。"
实际上,HFS Research执行研究负责人Ashish Chaturvedi表示,Quotient AI的团队和技术经过市场验证且可信,因为他们负责了GitHub Copilot的质量改进工作。据Chaturvedi介绍,GitHub Copilot是"少数几个真正在企业级规模运行且错误会产生实际后果的AI产品"之一。
这次收购并非Databricks在帮助企业大规模可靠运行智能体方面的唯一尝试。
今年早些时候,该公司推出了指令检索器方法,旨在改善企业AI系统从内部数据中获取相关信息的方式。本月早些时候,它发布了KARL,这是一个由定制强化学习驱动的企业知识智能体,能够基于真实使用反馈优化其响应。
不过,这不仅仅是Databricks的举措;分析师表示,大多数数据平台供应商都在针对生产环境中智能体扩展的相同问题,尽管他们可能从不同起点开始。
Chaturvedi说:"Snowflake一直在通过Cortex Agent Evaluations和其Agent GPA框架构建自己的评估工具。Teradata则采取了完全不同的路径。其Enterprise AgentStack和与Google Cloud的合作伙伴关系专注于治理、上下文和混合部署,而不是模型级评估或强化学习驱动的改进。"
Chaturvedi补充道:"更广泛的格局也在变化。Dataiku在Snowflake Cortex智能体之上构建了评估集成。LangChain的生态系统提供了像LangSmith这样的开源替代方案用于追踪。而超大规模云服务商AWS、Google、Microsoft都有自己的可观测性和评估堆栈,在基础设施层面展开竞争。"
不过,分析师进一步指出,包括Databricks在内的供应商的这些举措更具战略性,旨在构建竞争护城河。
Chaturvedi补充说,这里的理念是,无论哪个数据平台提供了可靠扩展智能体的最佳路径,最终都将变得具有黏性并优于竞争对手。
据Hinchcliffe介绍,这条路径似乎是智能体评估,他说这正成为智能体的CI/CD等价物,企业将需要针对数千种场景测试智能体、衡量复杂工作流程中的行为表现,并自动改善性能的流水线。
Hinchcliffe补充道:"拥有这些反馈循环的平台将巩固其优势,因为每个生产部署都成为构建更好智能体的训练数据。从这个意义上说,Databricks收购Quotient AI不仅仅是购买一个测试智能体的工具;它是在投资整个企业智能体生命周期的控制层。"
Q&A
Q1:Quotient AI是什么公司?它的主要技术是什么?
A:Quotient AI是一家智能体评估与训练软件提供商,专注于缩小智能体评估和持续学习方面的差距。该公司的技术能够监控生产环境中的智能体行为,检测关键问题,并利用这些信号持续改善智能体性能。
Q2:为什么Databricks要收购Quotient AI?
A:Databricks收购Quotient AI是为了解决企业在智能体商业化应用中面临的关键挑战。虽然构建智能体原型相对容易,但确保它们在复杂企业工作流程中可靠运行仍然困难,Quotient AI的技术可以提供必要的评估框架和反馈机制。
Q3:智能体评估为什么这么重要?
A:智能体评估正成为AI智能体的CI/CD等价物,企业需要针对数千种场景测试智能体,衡量其在复杂工作流程中的行为表现,并自动改善性能。拥有这些反馈循环的平台将获得竞争优势,因为每个生产部署都成为构建更好智能体的训练数据。
好文章,需要你的鼓励
B&H近期对多款M5 Pro MacBook Pro机型推出300美元优惠。14英寸M5 Pro版本(48GB内存+1TB固态硬盘)现售价2299美元,较原价2599美元节省300美元,且该配置在亚马逊无法购买,折扣机会更为难得。此外,16英寸M5 Pro版本(64GB内存+1TB固态硬盘)同样享有300美元折扣。B&H在多款高配MacBook机型上的定价已低于亚马逊,是近期可找到的最优价格。
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
Insta360推出GO 3S复古套装,将现代4K运动相机与胶片时代美学结合。套装核心仍是仅重39克的GO 3S,新增复古取景器、胶片风格滤镜、NFC定制外壳及可延长录制时长至76分钟的电池组。复古取景器模仿老式腰平相机设计,鼓励用户放慢节奏、专注构图。相机内置11种色彩预设及负片、正片等滤镜,同时保留FlowState防抖、4K拍摄及10米防水能力,面向热衷复古影像风格的年轻创作者。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。