Databricks公司今天宣布对其Agent Bricks框架进行一系列更新,旨在提升企业AI智能体的治理、准确性和模型灵活性。
这些公告是其"AI智能体周"的一部分,包括在MLflow开源平台中用于管理机器学习生命周期的新功能、模型上下文协议服务器市场以及从文档中提取结构化数据的工具。
Databricks表示,这些更新旨在帮助企业将AI智能体从试点项目转向生产环境,同时保持对数据访问、模型使用和决策准确性的控制。
此前专注于机器学习的MLflow平台现在将支持AI智能体的评估和监控。Databricks AI和机器学习产品高级总监Craig Wiley表示:"我们将大量评估能力开源到MLflow中。"
评估框架对于希望部署智能体的组织至关重要,特别是在面向外部的环境中。AI模型评估确保智能体可靠、准确且值得信赖,还可能涵盖公平性、偏见和稳健性等因素。
可调节评估
更新后的框架允许用户创建自定义评估逻辑,包括使用特定领域标准评估模型性能的可调节"评判器"。Wiley说:"你可以提供自然语言反馈,我们会在后台训练评判器以更好地反映这种反馈。"
用户还可以导入或创建自己的评判器,或使用Databricks提供的开源版本。评判器可以评估测试集和实时生产推理。
Databricks还推出了AI Gateway,这是一个标准化模型访问和监控方式的治理层。该网关可应用于OpenAI的GPT-5、谷歌的Gemini和Anthropic的Claude等专有模型,以及Llama和GPT-OSS等开源模型。
Wiley说:"Databricks上的任何大语言模型端点都可以使用AI Gateway进行治理。如果客户给我们一个端点,我们会将治理原生模型的相同标准应用到该端点。"
治理功能包括日志记录、访问控制、速率限制和审计跟踪,通过Databricks的Unity Catalog执行。可以设置控制来限制使用以达到成本控制目的。
MCP市场
对模型控制协议的支持允许AI智能体与第三方数据和服务安全交互,例如从You.com检索上下文或使用Glean Technologies的搜索引擎分析客户数据。
例如,Wiley说:"You.com提供了最好的互联网索引之一。他们可以让智能体使用该索引,但继续拥有他们期望从Databricks获得的治理、访问控制、监控和日志记录。"Wiley表示,Databricks打算让客户需求驱动市场中MCP服务器的选择。
他说:"如果有人具备我们客户需要的功能,我们很乐意找到使其可用的方法。"虽然合作伙伴在市场中列出产品没有费用,但"客户调用某些MCP服务器是有成本的"。
目前处于测试阶段的多智能体监督功能可以协调多个智能体和MCP服务器的工作流程。Databricks表示,这允许智能体采取自动化操作,如创建支持工单或运行SQL查询,同时通过Unity Catalog维持治理。
强化版OCR
为了帮助智能体访问文档中锁定的知识,Databricks还推出了ai_parse_document,这是一个从PDF和表格中提取结构化数据的SQL函数。作为一种强化版光学字符识别引擎,该函数将非结构化内容转换为Unity Catalog中的受治理、可搜索数据。
Wiley说:"它不仅识别或翻译文本,还将文档分块以便在向量数据库中使用",从而能够用于检索增强生成和其他智能体工作流程。客户可以使用Databricks的信息提取模块提取、细化和标记信息,该模块可以识别合同条款或个人标识符等实体。
Wiley表示,Databricks专注于帮助组织在高风险应用中部署AI智能体,在这些应用中治理和评估至关重要。他说:"我们的目标是帮助组织将这些智能体应用到风险和高价值用例中。"
新功能从今天开始提供,部分功能处于测试版或公开预览阶段。
Q&A
Q1:Databricks的AI Gateway是什么?它有什么作用?
A:AI Gateway是Databricks推出的治理层,用于标准化模型的访问和监控方式。它可以应用于OpenAI的GPT-5、谷歌的Gemini等专有模型,以及开源模型。治理功能包括日志记录、访问控制、速率限制和审计跟踪。
Q2:MLflow平台现在支持哪些新功能?
A:MLflow平台现在支持AI智能体的评估和监控。更新后的框架允许用户创建自定义评估逻辑,包括可调节的"评判器"来评估模型性能。用户可以提供自然语言反馈,系统会训练评判器更好地反映这种反馈。
Q3:ai_parse_document函数能做什么?
A:ai_parse_document是一个SQL函数,可以从PDF和表格中提取结构化数据。它不仅能识别和翻译文本,还能将文档分块以便在向量数据库中使用,支持检索增强生成和其他智能体工作流程。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。