自去年秋季推出实证研究助手(ERA)以来,谷歌研究科学家已将其应用于流行病学、宇宙学、大气监测和神经科学等真实场景,初步展示了 AI 加速科学发现的变革潜力。
AI 推动科学发现的能力正在以每周为单位快速演进,其成果不仅有望催生突破性发现,更将从根本上改变科学研究的方式。去年 9 月,谷歌发布了一篇预印本论文,介绍了实证研究助手(ERA)——一款帮助科学家生成专家级实证软件的工具。该工具已在从细胞生物学到神经科学等六个多样化且极具挑战性的基准问题上提出了全新解决方案。
此后,谷歌科学家与学术合作伙伴持续开发和测试 ERA,探索其潜在应用场景。这些工作已超越概念验证阶段,延伸至流行病学、地理空间分析等真实应用场景,揭示了 AI 如何推动计算建模的普及、解决悬而未决的难题、从现有数据中挖掘更深层的洞见,并突破黑箱建模的局限,发现可解释、机制准确的解决方案。
看到谷歌研究科学家、访问学者和学术合作者在使用 ERA 时流露出的兴奋之情,令人深受鼓舞。随着 ERA 逐步走向更广泛的应用,我们期待它能为全球科学发现提供 AI 辅助支持。
流行病学预测:追踪流感、新冠与 RSV
在预印本论文中,研究团队使用 ERA 预测美国新冠肺炎住院人数,结果显示其回溯性预测能力可与美国疾病控制与预防中心(CDC)及顶尖研究机构的现有工具相媲美,甚至有所超越。在此基础上,团队进一步将预测范围扩展至流感和呼吸道合胞病毒(RSV),并已开始每周实时提交前瞻性预测。
去年 11 月,CDC 2025-26 流感季预测挑战赛开放后,谷歌开始每周提交覆盖美国所有州、预测时间跨度长达四周的预测数据。去年年底,谷歌还加入了 CDC 针对各州新冠肺炎住院人数的全年实时预测项目,以及 CDC 新近启动的 RSV 预测中心。由马萨诸塞大学阿默斯特分校生物统计学教授、该项目顾问 Nicholas Reich 主持的流感和新冠肺炎公开排行榜显示,自谷歌开始提交预测以来,其表现始终位居两个排行榜前列。RSV 虽无公开排行榜,但内部分析同样显示出类似的优异表现。
一款预测精度能够达到甚至超越顶尖公共卫生机构工具的 AI 系统,对于追踪新兴疾病、扩大地理覆盖范围具有重要的公共卫生价值,有助于推动流行病学计算建模在更广泛的感染类型和地区中普及。
宇宙学:破解宇宙弦引力辐射难题
宇宙弦是时空结构中的理论性缺陷,被认为形成于早期宇宙,并会辐射引力波。计算这种辐射能量的频谱是一个悬而未决的难题,主要原因在于其控制方程包含奇点——即数值趋向无穷大、传统模型失效的数学点。去年秋天,一篇论文借助 OpenAI 的 GPT-5 找到了宇宙弦引力能量辐射的部分解,但仅限于 α = π/2(即 90 度)的正方形环路这一最简单情形。一个统一的精确解——能够完美求解该积分的单一完整数学公式——仍是一个开放性问题。
为此,我们将 ERA 与 Gemini Deep Think 结合使用,系统性地探索能够处理这些奇点的数学技术,最终成功推导出六个通解以及一个简洁的渐近极限公式,并于今年 3 月公开分享了这一成果。这充分展示了将 ERA 与先进大语言模型结合,在宇宙学前沿解锁精确、全新解决方案的强大潜力。
大气监测:从气象卫星中提取二氧化碳信号
夏威夷冒纳罗亚天文台自 20 世纪 50 年代末开始定期观测二氧化碳(CO?),由此形成了记录地球大气 CO? 浓度持续上升的标志性"基林曲线"。绘制人类温室气体排放图谱、理解植物、树木、土壤和海洋如何吸收这些排放,需要我们追踪 CO? 在不同地区和时间段的变化。现有的星载 CO? 传感器(如 NASA 的轨道碳观测站 2 号,OCO-2)虽能进行高精度观测,但每次仅能覆盖地球表面极小的区域,且每 16 天才能重访同一地点。地球静止轨道卫星(如用于天气预报的 GOES East 卫星)轨道高度更高,每 10 分钟即可扫描整个半球,但现有地球静止轨道卫星均非为 CO? 测绘而设计。
谷歌研究人员利用 ERA 开发了一个单像素物理引导神经网络,从现有 GOES East 观测数据中提取柱平均 CO? 信号。该模型融合了 GOES East 的 16 个波段数据,以及对流层低层气象、太阳角度和年积日等信息。在利用 OCO-2 和 OCO-3 的稀疏观测数据完成训练后,该模型能够以每 10 分钟一次的频率,推算全球任意位置的柱平均 CO? 估算值。
在温室气体空间测量国际研讨会上发布的研究成果显示,这一 AI 模型能够充分利用 GOES East 观测数据的高时空密度,以前所未有的时空分辨率追踪柱平均 CO?。与 OCO-2 多年独立观测数据及地基全柱碳观测网络的对比验证,进一步证实了该模型捕捉真实 CO? 变化的能力。
这些成果表明,AI 算法能够从现有观测仪器中挖掘出额外价值,对于资源密集型卫星科研任务尤为重要。这也是谷歌研究人员利用 ERA 探索气候与温室气体相关问题的多个项目之一。
神经科学:解析斑马鱼神经回路
尽管我们现在已能绘制活体大脑中数以万计的神经元图谱,但厘清其功能回路仍是下一个重大挑战。谷歌研究人员利用 ERA 在真实和模拟斑马鱼中攻克了这一难题。斑马鱼是研究脊椎动物如何感知刺激、处理信息并作出反应的常用模式生物。在自然环境中,光线穿过水面涟漪在水底形成明暗条纹,斑马鱼已进化出对这些条纹变化的本能反应,以便在浅水区保持位置、避免被水流冲走。
在一项新研究中,我们聚焦于斑马鱼响应这一环境刺激的神经回路。我们向 ERA 提供了 simZFish(一个简化的斑马鱼身体与大脑模拟器)的连接图谱,该图谱揭示了细胞间的连接关系,但省略了支配这些连接的数学规则。ERA 据此提出了将刺激、神经活动与运动反应相连接的回路假设。将这些 AI 假设的回路在新的视觉刺激下进行测试,结果表明它们并非统计捷径,而是能够推广到其他类似情境的准确神经机制。
这一成果建立在预印本论文的基础之上。此前的研究已证明,AI 开发的模型在预测斑马鱼活动预测基准(ZAPBench)中超过 70,000 个神经元的活动方面,优于基线方法。ZAPBench 是一个来自模拟典型环境刺激实验的神经活动数据集。
ZAPBench 验证了 ERA 找到最先进预测解的能力,而模拟环境则进一步揭示了它如何超越黑箱建模。借助结构信息,ERA 发现了可解释、机制准确的解决方案,为应对活体大脑中的重大科学挑战提供了有力蓝图。
展望:AI 加速科学发现的广阔前景
上述四个项目是大语言模型支持的系统推动科学进步、加速发现步伐的一系列成果的缩影。这些案例涵盖了从理论数学到数据预测、从分析观测仪器数据到解读模拟输出等多种类型的问题,也展示了 AI 赋能科学在解决开放性问题、推动计算建模普及以及最大化现有观测数据价值方面的巨大潜力。我们对 ERA 以及谷歌其他旨在加速科学发现的工具(包括 co-scientist 和 PAT)所取得的进展感到振奋。
感谢所有参与 ERA 开发的合作者,以及所有早期使用者。流行病学预测工作由 Zahra Shamsi、Sarah Martinson、Nicholas Reich、Martyna Plomecka 和 Brian Williams 主导;宇宙学论文由 Michael Brenner、Vincent Cohen-Addad 和 David Woodruff 撰写;二氧化碳监测研究由 Aarón Sonabend-W、Sean Campbell、Renee Johnston、Vishal Batchu、Carl Elkin、Christopher Van Arsdale、John Platt 和 Anna Michalak 主导;神经回路论文由 Jan-Matthis Lückmann、Viren Jain 和 Michal Januszewski 撰写。同时感谢 John Platt、Michael Brenner、Lizzie Dorfman、Vip Gupta、Alison Lentz、Erica Brand、Katherine Chou、Ronit Levavi Morad、Yossi Matias 和 James Manyika 的领导支持。
Q&A
Q1:实证研究助手(ERA)是什么,它能解决哪些科学问题?
A:ERA 是谷歌研究推出的一款 AI 工具,旨在帮助科学家生成专家级实证软件。它已被应用于流行病学预测、宇宙弦引力辐射计算、大气 CO? 监测和神经回路解析等多个领域,能够解决传统方法难以处理的开放性问题,并从现有数据中挖掘更深层的科学洞见。
Q2:谷歌用 ERA 做的流感和新冠预测准确吗,和 CDC 比怎么样?
A:根据 CDC 公开排行榜的数据,谷歌使用 ERA 提交的流感和新冠肺炎住院人数预测,自参赛以来始终位居排行榜前列,表现与 CDC 自研工具及顶尖研究机构相当甚至更优。RSV 预测虽无公开排行榜,但内部分析同样显示出类似的强劲表现。
Q3:ERA 是如何从气象卫星数据中提取 CO? 信息的?
A:谷歌研究人员利用 ERA 开发了一个单像素物理引导神经网络,融合 GOES East 卫星的 16 个波段数据,结合对流层低层气象、太阳角度和年积日等信息,在 OCO-2 和 OCO-3 稀疏观测数据上完成训练后,实现了每 10 分钟、覆盖全球任意位置的柱平均 CO? 估算,时空分辨率远超现有星载传感器。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。