Databricks公司今天宣布对其Agent Bricks框架进行一系列更新,旨在提升企业AI智能体的治理、准确性和模型灵活性。
这些公告是其"AI智能体周"的一部分,包括在MLflow开源平台中用于管理机器学习生命周期的新功能、模型上下文协议服务器市场以及从文档中提取结构化数据的工具。
Databricks表示,这些更新旨在帮助企业将AI智能体从试点项目转向生产环境,同时保持对数据访问、模型使用和决策准确性的控制。
此前专注于机器学习的MLflow平台现在将支持AI智能体的评估和监控。Databricks AI和机器学习产品高级总监Craig Wiley表示:"我们将大量评估能力开源到MLflow中。"
评估框架对于希望部署智能体的组织至关重要,特别是在面向外部的环境中。AI模型评估确保智能体可靠、准确且值得信赖,还可能涵盖公平性、偏见和稳健性等因素。
可调节评估
更新后的框架允许用户创建自定义评估逻辑,包括使用特定领域标准评估模型性能的可调节"评判器"。Wiley说:"你可以提供自然语言反馈,我们会在后台训练评判器以更好地反映这种反馈。"
用户还可以导入或创建自己的评判器,或使用Databricks提供的开源版本。评判器可以评估测试集和实时生产推理。
Databricks还推出了AI Gateway,这是一个标准化模型访问和监控方式的治理层。该网关可应用于OpenAI的GPT-5、谷歌的Gemini和Anthropic的Claude等专有模型,以及Llama和GPT-OSS等开源模型。
Wiley说:"Databricks上的任何大语言模型端点都可以使用AI Gateway进行治理。如果客户给我们一个端点,我们会将治理原生模型的相同标准应用到该端点。"
治理功能包括日志记录、访问控制、速率限制和审计跟踪,通过Databricks的Unity Catalog执行。可以设置控制来限制使用以达到成本控制目的。
MCP市场
对模型控制协议的支持允许AI智能体与第三方数据和服务安全交互,例如从You.com检索上下文或使用Glean Technologies的搜索引擎分析客户数据。
例如,Wiley说:"You.com提供了最好的互联网索引之一。他们可以让智能体使用该索引,但继续拥有他们期望从Databricks获得的治理、访问控制、监控和日志记录。"Wiley表示,Databricks打算让客户需求驱动市场中MCP服务器的选择。
他说:"如果有人具备我们客户需要的功能,我们很乐意找到使其可用的方法。"虽然合作伙伴在市场中列出产品没有费用,但"客户调用某些MCP服务器是有成本的"。
目前处于测试阶段的多智能体监督功能可以协调多个智能体和MCP服务器的工作流程。Databricks表示,这允许智能体采取自动化操作,如创建支持工单或运行SQL查询,同时通过Unity Catalog维持治理。
强化版OCR
为了帮助智能体访问文档中锁定的知识,Databricks还推出了ai_parse_document,这是一个从PDF和表格中提取结构化数据的SQL函数。作为一种强化版光学字符识别引擎,该函数将非结构化内容转换为Unity Catalog中的受治理、可搜索数据。
Wiley说:"它不仅识别或翻译文本,还将文档分块以便在向量数据库中使用",从而能够用于检索增强生成和其他智能体工作流程。客户可以使用Databricks的信息提取模块提取、细化和标记信息,该模块可以识别合同条款或个人标识符等实体。
Wiley表示,Databricks专注于帮助组织在高风险应用中部署AI智能体,在这些应用中治理和评估至关重要。他说:"我们的目标是帮助组织将这些智能体应用到风险和高价值用例中。"
新功能从今天开始提供,部分功能处于测试版或公开预览阶段。
Q&A
Q1:Databricks的AI Gateway是什么?它有什么作用?
A:AI Gateway是Databricks推出的治理层,用于标准化模型的访问和监控方式。它可以应用于OpenAI的GPT-5、谷歌的Gemini等专有模型,以及开源模型。治理功能包括日志记录、访问控制、速率限制和审计跟踪。
Q2:MLflow平台现在支持哪些新功能?
A:MLflow平台现在支持AI智能体的评估和监控。更新后的框架允许用户创建自定义评估逻辑,包括可调节的"评判器"来评估模型性能。用户可以提供自然语言反馈,系统会训练评判器更好地反映这种反馈。
Q3:ai_parse_document函数能做什么?
A:ai_parse_document是一个SQL函数,可以从PDF和表格中提取结构化数据。它不仅能识别和翻译文本,还能将文档分块以便在向量数据库中使用,支持检索增强生成和其他智能体工作流程。
好文章,需要你的鼓励
北京大学团队开发的DragMesh系统通过简单拖拽操作实现3D物体的物理真实交互。该系统采用分工合作架构,结合语义理解、几何预测和动画生成三个模块,在保证运动精度的同时将计算开销降至现有方法的五分之一。系统支持实时交互,无需重新训练即可处理新物体,为虚拟现实和游戏开发提供了高效解决方案。
AI硬件的竞争才刚刚开始,华硕Ascent GX10这样将专业级算力带入桌面级设备的尝试,或许正在改写个人AI开发的游戏规则。
达尔豪斯大学研究团队系统性批判了当前AI多智能体模拟的静态框架局限,提出以"动态场景演化、智能体-环境共同演化、生成式智能体架构"为核心的开放式模拟范式。该研究突破传统任务导向模式,强调AI智能体应具备自主探索、社会学习和环境重塑能力,为政策制定、教育创新和社会治理提供前所未有的模拟工具。