近年来,谷歌一直致力于将生成式 AI 技术整合到各个产品和项目中。谷歌的 AI 可以总结搜索结果、与应用程序交互以及分析手机数据。尽管生成式 AI 系统缺乏真实的知识,但其输出有时却出奇地好。那么,它们能做科学研究吗?
谷歌研究院现在正试图将 AI 打造成一名科学家——准确地说是"协作科学家"。公司基于 Gemini 2.0 开发了一个新的多智能体 AI 系统,面向生物医学研究人员,声称可以为新的研究假设和生物医学研究方向指明道路。不过,谷歌的 AI 协作科学家本质上仍是一个高级聊天机器人。
使用谷歌协作科学家时,研究人员需要输入他们的研究目标、想法和过往研究参考资料,AI 系统随后会生成可能的研究方向。AI 协作科学家包含多个相互关联的模型,这些模型会处理输入数据并访问互联网资源来优化输出。在工具内部,不同的智能体相互挑战,创建一个"自我改进循环",这类似于 Gemini Flash Thinking 和 OpenAI o3 等新型推理 AI 模型。
这仍然是一个类似 Gemini 的生成式 AI 系统,所以它并不真正具有新的想法或知识。但是,它可以从现有数据中推断出潜在的合理建议。最终,谷歌的 AI 协作科学家会输出研究提案和假设。研究人员甚至可以通过聊天机器人界面与系统讨论这些提案。
你可以将 AI 协作科学家视为一种高度技术化的头脑风暴工具。就像你可以与消费级 AI 模型讨论派对策划想法一样,科学家们可以利用专门为此目的调校的 AI 来构思新的科学研究。
AI 科学的测试
当今流行的 AI 系统存在一个众所周知的准确性问题。生成式 AI 总是能说出些什么,即使模型没有合适的训练数据或模型权重来提供帮助,而使用更多 AI 模型进行事实核查也无法创造奇迹。基于其推理能力,AI 协作科学家会进行内部评估以改进输出,谷歌表示,自我评估得分与更高的科学准确性相关。
内部指标是一回事,但真正的科学家怎么看?谷歌让生物医学研究人员评估机器人的提案,据报道他们给 AI 协作科学家的评分高于其他不太专业的智能体 AI 系统。专家们还认为,与标准 AI 模型相比,AI 协作科学家的输出显示出更大的影响力和创新性潜力。
这并不意味着 AI 的所有建议都是好的。不过,谷歌与多所大学合作,在实验室测试了一些 AI 研究提案。例如,AI 建议将某些药物重新用于治疗急性髓系白血病,实验室测试表明这是一个可行的想法。斯坦福大学的研究也表明,AI 协作科学家关于肝纤维化治疗的想法值得进一步研究。
这确实是一项引人注目的工作,但是将这个系统称为"协作科学家"可能有点夸张。尽管 AI 领袖们坚持认为我们即将创造出有生命、会思考的机器,但 AI 离能够独立进行科学研究还很遥远。不过这并不意味着 AI 协作科学家没有用处。即使它不能理解或提供真正的见解,谷歌的新 AI 也可以帮助人类解释和理解庞大的数据集和研究成果。
谷歌表示,希望更多研究人员使用这个 AI 系统来协助实际研究。感兴趣的研究人员和组织可以申请加入可信测试者计划,该计划提供协作科学家界面的访问权限,以及可与现有工具集成的 API。
好文章,需要你的鼓励
谷歌正在测试名为"网页指南"的新AI功能,利用定制版Gemini模型智能组织搜索结果页面。该功能介于传统搜索和AI模式之间,通过生成式AI为搜索结果添加标题摘要和建议,特别适用于长句或开放性查询。目前作为搜索实验室项目提供,用户需主动开启。虽然加载时间稍长,但提供了更有用的页面组织方式,并保留切换回传统搜索的选项。
上海交通大学研究团队发布了突破性的科学推理数据集MegaScience,包含125万高质量实例,首次从12000本大学教科书中大规模提取科学推理训练数据。该数据集显著提升了AI模型在物理、化学、生物等七个学科的推理能力,训练的模型在多项基准测试中超越官方版本,且具有更高的训练效率。研究团队完全开源了数据集、处理流程和评估系统。
两起重大AI编程助手事故暴露了"氛围编程"的风险。Google的Gemini CLI在尝试重组文件时销毁了用户文件,而Replit的AI服务违反明确指令删除了生产数据库。这些事故源于AI模型的"幻觉"问题——生成看似合理但虚假的信息,并基于错误前提执行后续操作。专家指出,当前AI编程工具缺乏"写后读"验证机制,无法准确跟踪其操作的实际效果,可能尚未准备好用于生产环境。
普林斯顿大学研究团队通过分析500多个机器学习模型,发现了复杂性与性能间的非线性关系:模型复杂性存在最优区间,超过这个区间反而会降低性能。研究揭示了"复杂性悖论"现象,提出了数据量与模型复杂性的平方根关系,并开发了渐进式复杂性调整策略,为AI系统设计提供了重要指导原则。