OpenAI推出专为生物学研究定制的大语言模型

OpenAI发布专为生物学工作流程训练的大语言模型GPT-Rosalind,以科学家罗莎琳德·富兰克林命名。该模型针对50种常见生物学工作流程进行训练,可访问主要公共生物数据库,支持生物通路推断和药物靶点优先级筛选。为降低过度乐观倾向,模型经过专项调优以提升批判性判断能力。目前仅对美国机构开放受限访问,以防止潜在滥用风险。

周四,OpenAI宣布推出一款专门针对生物学常见工作流程训练的大语言模型,命名为GPT-Rosalind,以科学家罗莎琳德·富兰克林的名字命名。与各大科技公司此前推出的科学领域模型相比,GPT-Rosalind走出了一条不同的路线——后者大多采用通用化路径,兼顾多个学科领域,而GPT-Rosalind则聚焦于生物学这一垂直领域。

在新闻发布会上,OpenAI生命科学产品负责人王云云表示,该系统旨在解决当前生物学研究者面临的两大核心瓶颈。其一是数十年基因组测序与蛋白质生化研究所积累的海量数据集,任何一位研究人员都难以独立消化;其二是生物学拥有众多高度细分的子领域,每个子领域都有其独特的技术方法和专业术语。举例来说,一位遗传学家若需研究某个在脑细胞中活跃的基因,往往会被浩如烟海的神经生物学文献所困扰。

王云云介绍,OpenAI以一款大语言模型为基础,针对50种最常见的生物学工作流程进行了专项训练,并教会模型如何访问主要公共生物信息数据库。经过进一步训练后,该系统已具备推断潜在生物通路、筛选优先级药物靶点的能力。她表示:"我们通过已知通路和调控机制将基因型与表现型关联起来,推断蛋白质可能的结构或功能特性,真正发挥机制性理解的优势。"

针对大语言模型普遍存在的"迎合性"和"过度乐观"倾向,OpenAI表示已对模型进行了专项调校,使其更具批判性思维,能够更主动地告知用户某个药物靶点存在的问题。发布会上,GPT-Rosalind的"推理能力"和"专家级"表现被反复提及。OpenAI方面解释,"推理能力"指的是模型能够完成复杂的多步骤分析流程,而"专家级"表现则来源于模型在若干基准测试中的成绩。

然而,目前尚不清楚OpenAI是否解决了困扰众多大语言模型的幻觉问题——当系统被要求解释其推理步骤时,这一问题尤为突出。结合过往经验来看,未来我们很可能会同时看到两种截然不同的反馈:一方面是关于AI发现意外关联的惊喜报告,另一方面则是明显错误建议的案例。

在访问权限方面,OpenAI目前出于安全考量严格限制使用范围,以防模型被用于优化病毒传染性等潜在危险用途。目前,仅限美国境内机构申请加入OpenAI的可信访问部署体系,公司将对使用资格进行审核把关。与此同时,一款功能相对有限的"生命科学研究插件"将面向公众开放。

值得注意的是,目前市场上已有多家公司推出了面向科学领域的智能体大语言模型,但与GPT-Rosalind相比,这些模型的专注度明显不足,而非专注于生物学这一单一领域。在外界开始对这一新模型的实际效果进行系统评估之前,其高度垂直化的定位究竟能在多大程度上提升实用价值,目前仍有待观察。

Q&A

Q1:GPT-Rosalind是什么?它和其他科学领域模型有什么区别?

A:GPT-Rosalind是OpenAI推出的一款专为生物学研究设计的大语言模型,以科学家罗莎琳德·富兰克林命名。与其他科技公司推出的通用型科学模型不同,GPT-Rosalind专注于生物学领域,针对50种常见生物学工作流程进行了专项训练,并具备访问主要公共生物信息数据库的能力,可推断生物通路、筛选药物靶点。

Q2:GPT-Rosalind如何解决生物学研究中的数据过载问题?

A:GPT-Rosalind通过系统训练,能够整合数十年基因组测序和蛋白质生化研究积累的海量数据,帮助研究人员快速梳理不同子领域的专业文献与术语。例如,遗传学家研究神经相关基因时,模型可协助理解神经生物学文献,并通过已知通路和调控机制将基因型与表现型关联起来,大幅降低跨领域研究的门槛。

Q3:现在普通研究人员能直接使用GPT-Rosalind吗?

A:目前不能直接使用。出于安全考虑,OpenAI对GPT-Rosalind的访问权限进行了严格限制,仅允许美国境内的机构申请加入可信访问部署体系,且需经过资格审核。不过,功能相对有限的"生命科学研究插件"将面向公众开放,普通研究人员可通过该插件体验部分相关功能。

来源:Arstechnica

0赞

好文章,需要你的鼓励

2026

04/17

15:42

分享

点赞

邮件订阅