Databricks公司今天宣布对其Agent Bricks框架进行一系列更新,旨在提升企业AI智能体的治理、准确性和模型灵活性。
这些公告是其"AI智能体周"的一部分,包括在MLflow开源平台中用于管理机器学习生命周期的新功能、模型上下文协议服务器市场以及从文档中提取结构化数据的工具。
Databricks表示,这些更新旨在帮助企业将AI智能体从试点项目转向生产环境,同时保持对数据访问、模型使用和决策准确性的控制。
此前专注于机器学习的MLflow平台现在将支持AI智能体的评估和监控。Databricks AI和机器学习产品高级总监Craig Wiley表示:"我们将大量评估能力开源到MLflow中。"
评估框架对于希望部署智能体的组织至关重要,特别是在面向外部的环境中。AI模型评估确保智能体可靠、准确且值得信赖,还可能涵盖公平性、偏见和稳健性等因素。
可调节评估
更新后的框架允许用户创建自定义评估逻辑,包括使用特定领域标准评估模型性能的可调节"评判器"。Wiley说:"你可以提供自然语言反馈,我们会在后台训练评判器以更好地反映这种反馈。"
用户还可以导入或创建自己的评判器,或使用Databricks提供的开源版本。评判器可以评估测试集和实时生产推理。
Databricks还推出了AI Gateway,这是一个标准化模型访问和监控方式的治理层。该网关可应用于OpenAI的GPT-5、谷歌的Gemini和Anthropic的Claude等专有模型,以及Llama和GPT-OSS等开源模型。
Wiley说:"Databricks上的任何大语言模型端点都可以使用AI Gateway进行治理。如果客户给我们一个端点,我们会将治理原生模型的相同标准应用到该端点。"
治理功能包括日志记录、访问控制、速率限制和审计跟踪,通过Databricks的Unity Catalog执行。可以设置控制来限制使用以达到成本控制目的。
MCP市场
对模型控制协议的支持允许AI智能体与第三方数据和服务安全交互,例如从You.com检索上下文或使用Glean Technologies的搜索引擎分析客户数据。
例如,Wiley说:"You.com提供了最好的互联网索引之一。他们可以让智能体使用该索引,但继续拥有他们期望从Databricks获得的治理、访问控制、监控和日志记录。"Wiley表示,Databricks打算让客户需求驱动市场中MCP服务器的选择。
他说:"如果有人具备我们客户需要的功能,我们很乐意找到使其可用的方法。"虽然合作伙伴在市场中列出产品没有费用,但"客户调用某些MCP服务器是有成本的"。
目前处于测试阶段的多智能体监督功能可以协调多个智能体和MCP服务器的工作流程。Databricks表示,这允许智能体采取自动化操作,如创建支持工单或运行SQL查询,同时通过Unity Catalog维持治理。
强化版OCR
为了帮助智能体访问文档中锁定的知识,Databricks还推出了ai_parse_document,这是一个从PDF和表格中提取结构化数据的SQL函数。作为一种强化版光学字符识别引擎,该函数将非结构化内容转换为Unity Catalog中的受治理、可搜索数据。
Wiley说:"它不仅识别或翻译文本,还将文档分块以便在向量数据库中使用",从而能够用于检索增强生成和其他智能体工作流程。客户可以使用Databricks的信息提取模块提取、细化和标记信息,该模块可以识别合同条款或个人标识符等实体。
Wiley表示,Databricks专注于帮助组织在高风险应用中部署AI智能体,在这些应用中治理和评估至关重要。他说:"我们的目标是帮助组织将这些智能体应用到风险和高价值用例中。"
新功能从今天开始提供,部分功能处于测试版或公开预览阶段。
Q&A
Q1:Databricks的AI Gateway是什么?它有什么作用?
A:AI Gateway是Databricks推出的治理层,用于标准化模型的访问和监控方式。它可以应用于OpenAI的GPT-5、谷歌的Gemini等专有模型,以及开源模型。治理功能包括日志记录、访问控制、速率限制和审计跟踪。
Q2:MLflow平台现在支持哪些新功能?
A:MLflow平台现在支持AI智能体的评估和监控。更新后的框架允许用户创建自定义评估逻辑,包括可调节的"评判器"来评估模型性能。用户可以提供自然语言反馈,系统会训练评判器更好地反映这种反馈。
Q3:ai_parse_document函数能做什么?
A:ai_parse_document是一个SQL函数,可以从PDF和表格中提取结构化数据。它不仅能识别和翻译文本,还能将文档分块以便在向量数据库中使用,支持检索增强生成和其他智能体工作流程。
好文章,需要你的鼓励
联想在CES展会上发布了AI助手Qira,该系统可跨联想和摩托罗拉设备生态运行,包括智能手机、可穿戴设备、PC和平板等。Qira不仅是聊天机器人,还能执行实际任务,如设备间文件传输。该系统具备情境感知能力,通过融合知识库创建个性化体验。联想强调隐私保护,优先本地处理数据。Qira将于2026年第一季度首先在联想设备上推出。摩托罗拉还展示了搭载Qira的AI可穿戴设备Project Maxwell概念产品。
剑桥大学研究团队首次系统探索AI在多轮对话中的信心判断问题。研究发现当前AI系统在评估自己答案可靠性方面存在严重缺陷,容易被对话长度而非信息质量误导。团队提出P(SUFFICIENT)等新方法,但整体问题仍待解决。该研究为AI在医疗、法律等关键领域的安全应用提供重要指导,强调了开发更可信AI系统的紧迫性。
在CES 2026主题演讲中,麦肯锡全球管理合伙人鲍勃·斯特恩费尔斯和通用催化剂CEO赫曼特·塔内贾表示,AI正以前所未有的速度重塑技术领域。塔内贾指出,Anthropic估值在一年内从600亿美元飙升至数千亿美元,预计将出现新一波万亿美元公司。然而,非技术企业对AI全面采用仍持观望态度。两位高管强调,人们必须认识到技能培训和再培训将是终身事业,传统的22年学习40年工作模式已被打破。
威斯康星大学研究团队开发出Prithvi-CAFE洪水监测系统,通过"双视觉协作"机制解决了AI地理基础模型在洪水识别上的局限性。该系统巧妙融合全局理解和局部细节能力,在国际标准数据集上创造最佳成绩,参数效率提升93%,为全球洪水预警和防灾减灾提供了更准确可靠的技术方案。