自 TimesFM 发布以来,时间序列预测领域已发生深刻变革。如今,谷歌将同样的"零样本"逻辑引入表格数据领域。
谷歌正式推出 TabFM——一款专为表格数据设计的全新基础模型,并已直接集成至 BigQuery ML,旨在简化分类与回归工作流程。
表格数据是企业数据基础设施的核心支柱,驱动着大量关键的预测性机器学习应用。从预测客户流失到识别金融欺诈,表格回归与分类任务在各行各业中无处不在。多年来,AdaBoost、XGBoost、随机森林等基于树结构的有监督算法一直主导这一领域,在结构化数据上展现出稳健的性能表现。
然而,传统模型的部署生命周期存在明显瓶颈。在新数据集上拟合一个 XGBoost 模型,绝非调用一次 .fit() 那么简单,往往需要耗费大量人工精力。数据科学家必须投入大量时间进行超参数优化和领域特定的特征工程,才能从原始数据中提取可靠的信号。
另一方面,机器学习领域的最新进展——尤其是大语言模型的演进——彻底改变了我们处理新任务的方式。大语言模型通过上下文学习(ICL)展示出强大的零样本预测能力。这一技术无需更新任何底层模型权重,仅通过在输入上下文中提供示例和指令,即可让预训练模型学习新任务。
今天,谷歌正式发布 TabFM,这是一款专为表格数据分类与回归任务设计的基础模型。通过将表格预测转化为上下文学习问题,TabFM 彻底消除了手动模型训练、超参数调优和复杂特征工程的需求。该模型能够在单次前向传播中对未见过的表格生成高质量预测结果,现已在 Hugging Face 和 GitHub 上正式开放。
传统机器学习范式依赖于针对特定数据集分布更新模型参数。而上下文学习范式则完全绕过了这一过程。TabFM 无需为每个新任务经历传统训练阶段,而是将整个数据集——包括历史训练样本和目标测试行——作为一个统一的提示输入。模型在推理时直接从上下文中学习列与行之间的关系。
然而,将上下文学习应用于表格数据并非易事。标准语言模型处理的是一维有序序列,而表格本质上是二维且无序的——交换两行或两列并不会改变数据的底层含义。为有效处理多样化的表格结构并实现可扩展的零样本预测,TabFM 融合了 TabPFN 和 TabICL 等架构的优势,设计出一种新颖的混合架构,依托三个核心机制实现高效运作。
构建基础模型的通用方案是使用在海量多样数据上训练的大容量神经网络。然而,表格机器学习面临一大核心挑战:高质量、多样化的表格数据集——尤其是反映真实工业数据分析所需的大规模表格——在开源领域极度匮乏。工业级表格通常包含专有数据结构和敏感信息,难以用于广泛的预训练。
由于合成表格可以任意扩展规模,它们实际上是在此规模下预训练基础模型的唯一可行选择。因此,TabFM 完全基于数以亿计的合成数据集进行训练。这些数据集通过结合多种随机函数的结构因果模型(SCM)动态生成,能够涵盖真实世界表格数据中广泛存在的各类分布和复杂特征关系。这也使得模型能够良好地泛化到未见过的真实世界表格。
为严格评测 TabFM 与现有最先进方法的性能差异,谷歌在 TabArena 上对其进行了全面测试。TabArena 是一个基于头对头胜率计算 Elo 分数的动态基准系统,评估范围涵盖 38 个分类数据集和 13 个回归数据集,样本量从 700 到 150,000 不等。
在评测中,谷歌对 TabFM 的两种不同配置进行了基准测试。详细的 TabArena 基准测试结果——包括每折详细指标和针对特定基线模型的头对头胜率——可在 GitHub 页面上查阅。
通过将表格预测重新定义为上下文学习问题,TabFM 利用混合注意力架构和大规模合成训练数据,原生捕获复杂的特征交互关系。这一方法成功消除了手动特征工程、超参数优化和重复模型训练等传统瓶颈,并持续超越经过深度调优的工业级有监督算法。TabFM 将现代基础模型开箱即用的便利性直接带入表格机器学习工作流,使从业者能够在单次前向传播中生成高精度预测结果。
为进一步提升可及性,TabFM 正被直接集成至 Google BigQuery。在未来数周内,用户将能够在 BigQuery 中通过简单的 AI.PREDICT SQL 命令执行高级回归和分类任务,无需任何机器学习专业知识。
Q&A
Q1:TabFM 是什么,它主要解决什么问题?
A:TabFM 是谷歌推出的一款专为表格数据设计的基础模型,集成于 BigQuery ML。它通过上下文学习(ICL)实现零样本预测,彻底省去了传统机器学习流程中繁琐的超参数调优、特征工程和模型训练步骤,让用户无需机器学习专业知识即可在单次前向传播中获得高质量的分类或回归预测结果。
Q2:TabFM 的训练数据从哪里来,为什么用合成数据?
A:由于真实工业级表格数据通常包含敏感信息和专有结构,难以在开源场景下大规模获取,TabFM 完全基于合成数据进行训练。这些合成数据集通过结构因果模型(SCM)动态生成,数量达数亿级别,能够模拟真实世界表格数据中的多种分布和复杂特征关系,从而使模型具备良好的泛化能力。
Q3:TabFM 和 XGBoost 这类传统模型相比,性能怎么样?
A:在 TabArena 基准测试中,TabFM 在涵盖 38 个分类数据集和 13 个回归数据集的评测中,持续超越经过深度调优的 XGBoost 等工业级有监督算法。TabArena 采用基于头对头胜率的 Elo 评分体系,TabFM 在默认配置和调优集成配置下均进入排名前列,详细结果可在其 GitHub 页面查阅。
好文章,需要你的鼓励
今天讲的出海案例是维科精密,这家汽车电子与功率半导体精密部件厂商正在泰国建设总投资3.10亿元的生产基地。
MemoBench是哈佛大学等机构联合推出的视频生成评测基准,专测AI在物体消失再重现场景下的记忆能力,揭示了当前所有主流模型的核心盲区。
随着AI智能体对实时数据访问需求激增,企业维护独立事务与分析系统的成本和复杂性日益凸显。Databricks、Snowflake、EDB等厂商纷纷推出融合架构。分布式PostgreSQL提供商pgEdge近日发布ColdFront测试版,采用冷热数据分层架构,自动将旧数据迁移至Apache Iceberg对象存储,同时保持PostgreSQL作为唯一应用接口。分析师指出,DuckDB正成为此类架构的事实标准嵌入式分析引擎,但由此产生的集中风险值得CIO关注。
研究发现AI代码修复工具默认的"写代码→跑测试→再改"流程中,禁止运行测试几乎不影响修复成功率,却能节省超过一半的时间和费用。