周二,《自然》杂志发表了两篇论文,介绍了旨在帮助科学家制定和验证假设的AI系统。其中一个是谷歌的Co-Scientist,被设计为"科学家参与其中"的模式,即研究人员需要持续介入并做出判断来引导系统运作。另一个来自名为FutureHouse的非营利机构,其系统更进一步,能够对特定类别实验产生的生物数据进行自动评估。
尽管谷歌表示其系统同样适用于物理学领域,但两个研究团队目前均只展示了生物学数据,且研究假设相对直接,主要围绕"某种药物是否适用于某种疾病"展开。因此,这两个系统并非旨在取代科学家或科学研究流程,而是致力于发挥当前AI最擅长的能力——处理人类难以全面消化的海量信息。
这类系统有什么价值?
两个系统在细节上有所差异,但都属于智能体类型,通过在后台调用各类独立工具来运作。(微软的科学助手也采用了类似思路;OpenAI则是个例外,它选择直接对大语言模型进行生物学方向的微调。)尽管两者之间存在差别,但都聚焦于同一个核心问题:科学信息的爆炸性增长。
随着线上发表越来越便捷,学术期刊数量急剧扩张,论文数量也随之激增。对任何研究人员来说,跟上本领域的最新进展都变得愈发困难,而从其他领域挖掘潜在相关成果更是一大挑战。比如,某个参与眼部发育的信号通路可能同样与肾脏功能有关,研究人员很容易错过其他领域在这方面的新发现。
FutureHouse的研究团队这样描述这一问题:"通过聚焦于'组合综合'——即识别不同领域之间非显而易见的联系——Robin能够有效挖掘那些因知识壁垒而被人类专家忽视的低垂果实。"
这正是AI所擅长的任务。它可以在后台持续梳理经过同行评审的文献,而研究人员则可以同时处理其他工作。这与AI是否比人类做得更好无关,更本质的问题是:如果没有AI,这类文献检索工作根本不会有人去做。
通过发现不同研究之间的足够多联系,这些工具能够提出关于生物学机制的假设,涉及哪些过程支撑了某种生物行为,以及哪些通路和网络调控了这些过程。在这两篇论文所探讨的案例中,系统还针对病变细胞中的相关通路提出了现有药物的潜在应用方向——谷歌聚焦于急性髓系白血病,FutureHouse则研究了一种黄斑变性。
Co-Scientist
不出所料,谷歌的系统以其Gemini大语言模型为基础。该系统能够解读科学家输入的研究目标,并启动文献检索流程,从中获取相关信息并形成假设。随后,这些假设在"锦标赛"机制中相互竞争,结果由"反思智能体"进行评估。"进化智能体"则可以对留存的假设进行优化,并将其重新送入评估流程。
整个过程中的核心评判标准包括:合理性、新颖性、可验证性与安全性。反思工具还能调用外部检索工具,谷歌表示,接入科学文献库"有效防止了系统生成看似新颖实则不合理的幻觉假设"。
论文强调,科学家在整个流程中始终参与其中。在寻找靶向白血病药物的过程中,系统所提出的建议由专家小组进行优先级排序,专家们能够查阅Co-Scientist在形成建议时所参考的文献资料。
最终结果与癌症治疗领域的普遍规律相符:系统识别出的部分药物确实有效,但仅对髓系白血病细胞系中的特定亚群起效。这并不罕见,因为肿瘤细胞失控生长可能源于多种不同机制,能够阻断某种细胞类型所走通路的药物,对走了不同通路的细胞未必有效。
谷歌还提到,该系统能够完成更广泛的假设生成任务,并以细菌毒力基因的传播为例加以说明,但相关细节较为简略。
此外,该系统被设计为模型无关架构,可随AI发展迁移至性能更强的模型。不过谷歌也提醒:"Co-Scientist同样继承了底层模型的固有局限,包括事实准确性不足和产生幻觉的可能性。"
Robin系统
FutureHouse的系统与Co-Scientist有几处相似之处,但也存在若干关键差异,这些差异不仅仅体现在将各智能体工具均以鸟类命名这一点上。主系统Robin配备了专用的文献检索工具:Crow负责生成论文的简明摘要,Falcon则提供对论文内容的深度概述。论文中有一组数据直观展现了其优势:"Robin在30分钟内可分析551篇论文,而人类完成同样工作预计需要540小时。"
Robin在整合上述摘要后,针对黄斑变性的发病机制形成了一系列假设,并借助这些工具对每种机制背后的证据进行了详细梳理。大语言模型评判器随后对各假设进行了两两比较,形成相对排名——这与谷歌的"锦标赛"机制颇为类似。
类似的流程也被用于筛选适合构建黄斑变性模型的细胞系和培养条件,并就30种候选药物生成了评估报告。FutureHouse团队表示:"这些报告不仅说明了每种药物适用于缓解体外模型所呈现的疾病机制的理由,同时也指出了其潜在局限性。"这些报告随后经由人类专家评审,以决定哪些实验方案值得推进。
Robin还提出了药物检测的实验方案,人类专家对此进行了评估(从情况来看,大多数情况下采用了Robin所建议方案的变体版本)。
Robin与Co-Scientist的关键区别在于:Robin包含一个名为Finch的工具,能够自动处理部分标准生物筛选实验的数据,例如流式细胞术和RNA测序。因此,只要所用实验属于Finch能够处理的类型,系统便可自动完成额外的数据分析步骤。
与谷歌的发现相同,Robin同样提出了一个新颖假设:增强视网膜细胞清除胞外碎片的能力,可能对该疾病起到一定的保护作用。而Robin在其设计的实验中也确实找到了一种似乎能提供这类保护效果的药物。
与谷歌的经验一致,专门针对科学文献设计的工具至关重要。当以OpenAI的o4-mini替换Crow时,幻觉引用率从零骤升至45%。FutureHouse还评估了OpenAI专注于研究的工具的表现,发现该工具所建议但Robin未曾提及的药物,在细胞实验中均未显示出效果。
当前进展意味着什么?
首先需要指出的是,上述成果来自药物开发中相对较为容易的环节——尽管药物开发的任何一个环节都谈不上真正简单。AI在这里并非从头设计全新分子,而且大多数药物失败于动物试验和临床试验阶段,而非细胞培养测试阶段。这并不是说药物重定向没有价值——这些分子已有现成的安全性数据和监管机构的批准,许多还已过专利保护期、价格低廉。但我们目前尚未到达AI能够攻克真正困难问题的阶段。
"某种机制导致了某种疾病,而某种药物可以靶向该机制"——这类假设也是生物学中较为具体的一种形式。在笔者从事科学研究的职业生涯中,曾需要面对诸如"携带某种突变的小鼠在差异显著的不同组织中表现出大量缺陷,是否存在统一的底层机制?"或"在该基因表达边界处究竟发生了什么,使得细胞对信号分子的响应方式发生了改变?"这类开放性问题。目前尚不清楚这些系统能否应对此类更为开放的科学难题。
话虽如此,文献过载确实是许多领域的真实困境,专门应对这一问题的系统有潜力帮助我们避免"所有必要信息早已存在多年、却无人将其整合"的局面。不过,鉴于我们仍处于AI发展的磨合期,能够看到至少两套独立开发的系统共同应对这一问题,也令人欣慰——这样我们或许可以同时运行两套系统并对比结果。
Q&A
Q1:谷歌Co-Scientist系统是如何运作的?
A:Co-Scientist基于谷歌的Gemini大语言模型构建。它首先解读科学家输入的研究目标,随后启动文献检索并形成假设。这些假设在"锦标赛"机制中相互竞争,由"反思智能体"评估结果,再由"进化智能体"对留存假设进行优化,整个流程可循环迭代。评判标准包括合理性、新颖性、可验证性和安全性,科学家全程参与并对结果进行审核。
Q2:FutureHouse的Robin系统与Co-Scientist有什么不同?
A:Robin最大的不同在于包含一个名为Finch的工具,能够自动处理流式细胞术、RNA测序等标准生物筛选实验的数据,实现了从假设生成到数据分析的更完整自动化链条。此外,Robin配备了Crow和Falcon两个专用文献工具,分别提供论文简明摘要和深度概述,30分钟可分析551篇论文,而人工完成同等工作预计需要540小时。
Q3:AI科学助手目前能解决哪些问题,局限性在哪里?
A:这类AI系统目前最擅长处理文献过载问题,能够快速梳理海量跨领域文献、发现潜在联系并提出药物重定向假设。但其局限性同样明显:它们目前主要适用于"已有药物靶向已知通路"这类相对具体的假设,尚难应对更开放性的科学问题;此外,细胞实验中的成功并不代表动物或临床试验同样有效,且系统本身仍存在幻觉和事实准确性不足的问题。
好文章,需要你的鼓励
Locus Robotics宣布收购加拿大温哥华机器人公司Nexera Robotics,将其专有的NeuraGrasp末端执行器技术整合至Locus Array平台。NeuraGrasp融合AI抓取智能、计算机视觉及专利软膜结构,可动态适应不同形状、材质、重量的商品,显著扩大了可自主拣选的SKU类型范围。此次收购将加速Locus Robotics在移动操控领域的技术路线图,推动仓储全流程自动化履约能力迈上新台阶。
ServiceNow研究团队构建的EVA-Bench框架,通过AI对AI的音频通话测试,量化评估语音客服系统在准确性和对话体验两个维度的真实表现,揭示现有系统普遍存在的可靠性缺口。
人形机器人正从原型验证迈向早期商业部署,汽车制造与物流领域预计成为未来十年核心需求市场。IDTechEx预测,相关市场规模将于2030年代初达到约250亿美元,2036年年出货量接近180万台。硬件成本持续下降,均价有望从2024年的约11.47万美元降至2030年的约3.7万美元。高利用率场景下运营成本有望低于5美元/小时,投资回收期可缩短至约6个月。但大规模商业化的关键,仍在于软件能力、任务泛化与系统集成的持续突破。
AWS AI Labs研究团队发布EvalAgent,这是一套通过"评估技能"自动生成AI智能体评测方案的系统,将首次运行成功率从17.5%提升至65%,并在人类专家评测中获得79.5%的偏好选择。