TabFM：面向表格数据的零样本基础模型正式发布

谷歌推出TabFM，一款专为表格数据分类与回归任务设计的基础模型，已集成至BigQuery ML。TabFM借鉴大语言模型的上下文学习（ICL）机制，无需手动训练、调参或特征工程，仅通过单次前向传播即可对未见表格生成高质量预测。模型基于数亿条合成数据集训练，采用混合注意力架构，在TabArena基准测试中超越XGBoost等主流监督算法。目前已开源至Hugging Face与GitHub。

自 TimesFM 发布以来，时间序列预测领域已发生深刻变革。如今，谷歌将同样的"零样本"逻辑引入表格数据领域。

谷歌正式推出 TabFM——一款专为表格数据设计的全新基础模型，并已直接集成至 BigQuery ML，旨在简化分类与回归工作流程。

表格数据是企业数据基础设施的核心支柱，驱动着大量关键的预测性机器学习应用。从预测客户流失到识别金融欺诈，表格回归与分类任务在各行各业中无处不在。多年来，AdaBoost、XGBoost、随机森林等基于树结构的有监督算法一直主导这一领域，在结构化数据上展现出稳健的性能表现。

然而，传统模型的部署生命周期存在明显瓶颈。在新数据集上拟合一个 XGBoost 模型，绝非调用一次 .fit() 那么简单，往往需要耗费大量人工精力。数据科学家必须投入大量时间进行超参数优化和领域特定的特征工程，才能从原始数据中提取可靠的信号。

另一方面，机器学习领域的最新进展——尤其是大语言模型的演进——彻底改变了我们处理新任务的方式。大语言模型通过上下文学习（ICL）展示出强大的零样本预测能力。这一技术无需更新任何底层模型权重，仅通过在输入上下文中提供示例和指令，即可让预训练模型学习新任务。

今天，谷歌正式发布 TabFM，这是一款专为表格数据分类与回归任务设计的基础模型。通过将表格预测转化为上下文学习问题，TabFM 彻底消除了手动模型训练、超参数调优和复杂特征工程的需求。该模型能够在单次前向传播中对未见过的表格生成高质量预测结果，现已在 Hugging Face 和 GitHub 上正式开放。

传统机器学习范式依赖于针对特定数据集分布更新模型参数。而上下文学习范式则完全绕过了这一过程。TabFM 无需为每个新任务经历传统训练阶段，而是将整个数据集——包括历史训练样本和目标测试行——作为一个统一的提示输入。模型在推理时直接从上下文中学习列与行之间的关系。

然而，将上下文学习应用于表格数据并非易事。标准语言模型处理的是一维有序序列，而表格本质上是二维且无序的——交换两行或两列并不会改变数据的底层含义。为有效处理多样化的表格结构并实现可扩展的零样本预测，TabFM 融合了 TabPFN 和 TabICL 等架构的优势，设计出一种新颖的混合架构，依托三个核心机制实现高效运作。

构建基础模型的通用方案是使用在海量多样数据上训练的大容量神经网络。然而，表格机器学习面临一大核心挑战：高质量、多样化的表格数据集——尤其是反映真实工业数据分析所需的大规模表格——在开源领域极度匮乏。工业级表格通常包含专有数据结构和敏感信息，难以用于广泛的预训练。

由于合成表格可以任意扩展规模，它们实际上是在此规模下预训练基础模型的唯一可行选择。因此，TabFM 完全基于数以亿计的合成数据集进行训练。这些数据集通过结合多种随机函数的结构因果模型（SCM）动态生成，能够涵盖真实世界表格数据中广泛存在的各类分布和复杂特征关系。这也使得模型能够良好地泛化到未见过的真实世界表格。

为严格评测 TabFM 与现有最先进方法的性能差异，谷歌在 TabArena 上对其进行了全面测试。TabArena 是一个基于头对头胜率计算 Elo 分数的动态基准系统，评估范围涵盖 38 个分类数据集和 13 个回归数据集，样本量从 700 到 150,000 不等。

在评测中，谷歌对 TabFM 的两种不同配置进行了基准测试。详细的 TabArena 基准测试结果——包括每折详细指标和针对特定基线模型的头对头胜率——可在 GitHub 页面上查阅。

通过将表格预测重新定义为上下文学习问题，TabFM 利用混合注意力架构和大规模合成训练数据，原生捕获复杂的特征交互关系。这一方法成功消除了手动特征工程、超参数优化和重复模型训练等传统瓶颈，并持续超越经过深度调优的工业级有监督算法。TabFM 将现代基础模型开箱即用的便利性直接带入表格机器学习工作流，使从业者能够在单次前向传播中生成高精度预测结果。

为进一步提升可及性，TabFM 正被直接集成至 Google BigQuery。在未来数周内，用户将能够在 BigQuery 中通过简单的 AI.PREDICT SQL 命令执行高级回归和分类任务，无需任何机器学习专业知识。

Q&A

Q1：TabFM 是什么，它主要解决什么问题？

A：TabFM 是谷歌推出的一款专为表格数据设计的基础模型，集成于 BigQuery ML。它通过上下文学习（ICL）实现零样本预测，彻底省去了传统机器学习流程中繁琐的超参数调优、特征工程和模型训练步骤，让用户无需机器学习专业知识即可在单次前向传播中获得高质量的分类或回归预测结果。

Q2：TabFM 的训练数据从哪里来，为什么用合成数据？

A：由于真实工业级表格数据通常包含敏感信息和专有结构，难以在开源场景下大规模获取，TabFM 完全基于合成数据进行训练。这些合成数据集通过结构因果模型（SCM）动态生成，数量达数亿级别，能够模拟真实世界表格数据中的多种分布和复杂特征关系，从而使模型具备良好的泛化能力。

Q3：TabFM 和 XGBoost 这类传统模型相比，性能怎么样？

A：在 TabArena 基准测试中，TabFM 在涵盖 38 个分类数据集和 13 个回归数据集的评测中，持续超越经过深度调优的 XGBoost 等工业级有监督算法。TabArena 采用基于头对头胜率的 Elo 评分体系，TabFM 在默认配置和调优集成配置下均进入排名前列，详细结果可在其 GitHub 页面查阅。

来源：Google

0赞

好文章，需要你的鼓励

TabFM：面向表格数据的零样本基础模型正式发布

来源：Google

2026

07/01

14:36

分享

点赞

WAIC2026 现场直击：开普勒顶流人气王，麒麟系列火爆出圈

面壁智能将密度定律带入具身智能

龙磁科技拟投3.58亿元扩建越南永磁铁氧体基地

首创一层Scale-up网络256卡全互联，摩尔线程MTT C256超节点为万卡及十万卡级集群夯实底座

从高血压诊疗入手，北京安贞医院让医疗大模型走出聊天框

西门子肖松：以场景为牵引，推动工业AI从单点实效迈向生产力跃迁

打造Token极致性价比 新华三震撼亮相2026世界人工智能大会

机器人管家系统上线！傅利叶携多款康养陪伴新品方案亮相WAIC 2026

赛那德“ 自主作业机器人天团” 登陆 WAIC：iLoabot-X+模型双升级，秀出具身场景落地硬实力

西门子Eigen工程智能体中国首发首展，荣获2026 WAIC SAIL之星奖

NVIDIA Cosmos 推动物理 AI 前沿发展

PPIO亮相WAIC 2026：发布智能模型网关，打造面向Agent时代的智能Token工厂

Netgear推出AI驱动网络管理平台，助力中小企业与服务商

OpenClaw 智能体正式登陆 iOS 与 Android 平台

Albertsons借助Databricks构建零售商品智能决策平台

微软正式将 Windows 11 打造为 AI 操作系统

工作中使用未授权AI工具之前，请三思

全球首座AI博物馆Dataland：用数据创造多感官视觉盛宴

ANS框架：Linux基金会为AI智能体建立DNS式信任机制

OpenAI携手Trail of Bits发起"Patch the Planet"开源安全修复计划

当数据库开始为Agent重写，OceanBase如何再造AI数据库？

韩国携手三星和SK海力士启动5840亿美元芯片制造计划

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

三一集团：数字化是必选项，AI是生存项

因湃电池 × 达索系统：如何共创出一套电池产业最佳实践

AI走进真实世界之后：安全、健康与产业的新命题

CES 2026

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

打造Token极致性价比新华三震撼亮相2026世界人工智能大会