Databricks已收购智能体评估与训练软件提供商Quotient AI,旨在帮助企业更可靠地大规模部署生产环境中的智能体。
Quotient AI在一份声明中表示:"Quotient AI的建立目标是缩小智能体评估和持续学习方面的差距。"该公司补充说,这家初创公司的技术将融入其Genie和Agent Bricks产品中,帮助企业监控生产环境中的智能体行为,检测关键问题,并利用这些信号持续改善智能体性能。
分析师表示,此次收购旨在解决CIO们在智能体商业化应用中日益关注的问题:虽然构建原型已变得相对容易,但证明这些系统在复杂企业工作流程中能够可靠运行仍然困难得多。
The Futurum Group首席信息官实践负责人Dion Hinchcliffe表示:"CIO们在智能体部署到生产环境后难以回答基本问题:它为什么做出那个决定,明天是否会有相同表现,以及我们如何验证它没有违反政策或合规要求?"
Hinchcliffe补充说,Quotient AI的技术将提供评估框架和强化学习反馈循环,企业需要这些来系统性地衡量智能体性能,发现故障,并持续帮助完善这些系统在真实企业环境中的行为表现。
对CIO们而言更重要的是,HyperFRAME Research AI堆栈实践负责人Stephanie Walter指出,Quotient的技术并非关于智能体的通用强化学习,而是更加特定领域化的:"他们想帮助你训练一个智能体,它不仅知道如何编程,更知道如何为你的特定数据架构编程,并通过你的特定合规检查。"
实际上,HFS Research执行研究负责人Ashish Chaturvedi表示,Quotient AI的团队和技术经过市场验证且可信,因为他们负责了GitHub Copilot的质量改进工作。据Chaturvedi介绍,GitHub Copilot是"少数几个真正在企业级规模运行且错误会产生实际后果的AI产品"之一。
这次收购并非Databricks在帮助企业大规模可靠运行智能体方面的唯一尝试。
今年早些时候,该公司推出了指令检索器方法,旨在改善企业AI系统从内部数据中获取相关信息的方式。本月早些时候,它发布了KARL,这是一个由定制强化学习驱动的企业知识智能体,能够基于真实使用反馈优化其响应。
不过,这不仅仅是Databricks的举措;分析师表示,大多数数据平台供应商都在针对生产环境中智能体扩展的相同问题,尽管他们可能从不同起点开始。
Chaturvedi说:"Snowflake一直在通过Cortex Agent Evaluations和其Agent GPA框架构建自己的评估工具。Teradata则采取了完全不同的路径。其Enterprise AgentStack和与Google Cloud的合作伙伴关系专注于治理、上下文和混合部署,而不是模型级评估或强化学习驱动的改进。"
Chaturvedi补充道:"更广泛的格局也在变化。Dataiku在Snowflake Cortex智能体之上构建了评估集成。LangChain的生态系统提供了像LangSmith这样的开源替代方案用于追踪。而超大规模云服务商AWS、Google、Microsoft都有自己的可观测性和评估堆栈,在基础设施层面展开竞争。"
不过,分析师进一步指出,包括Databricks在内的供应商的这些举措更具战略性,旨在构建竞争护城河。
Chaturvedi补充说,这里的理念是,无论哪个数据平台提供了可靠扩展智能体的最佳路径,最终都将变得具有黏性并优于竞争对手。
据Hinchcliffe介绍,这条路径似乎是智能体评估,他说这正成为智能体的CI/CD等价物,企业将需要针对数千种场景测试智能体、衡量复杂工作流程中的行为表现,并自动改善性能的流水线。
Hinchcliffe补充道:"拥有这些反馈循环的平台将巩固其优势,因为每个生产部署都成为构建更好智能体的训练数据。从这个意义上说,Databricks收购Quotient AI不仅仅是购买一个测试智能体的工具;它是在投资整个企业智能体生命周期的控制层。"
Q&A
Q1:Quotient AI是什么公司?它的主要技术是什么?
A:Quotient AI是一家智能体评估与训练软件提供商,专注于缩小智能体评估和持续学习方面的差距。该公司的技术能够监控生产环境中的智能体行为,检测关键问题,并利用这些信号持续改善智能体性能。
Q2:为什么Databricks要收购Quotient AI?
A:Databricks收购Quotient AI是为了解决企业在智能体商业化应用中面临的关键挑战。虽然构建智能体原型相对容易,但确保它们在复杂企业工作流程中可靠运行仍然困难,Quotient AI的技术可以提供必要的评估框架和反馈机制。
Q3:智能体评估为什么这么重要?
A:智能体评估正成为AI智能体的CI/CD等价物,企业需要针对数千种场景测试智能体,衡量其在复杂工作流程中的行为表现,并自动改善性能。拥有这些反馈循环的平台将获得竞争优势,因为每个生产部署都成为构建更好智能体的训练数据。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。