目前市场上 90% 的药物为小分子药物,其中许多在保障我们健康方面发挥着至关重要的作用。然而,化学药物发现领域正面临着前所未有的挑战:需要探索一个巨大到难以想象的分子空间。
迄今为止,估计所有可能存在的小分子中,用于药物合成或甚至考虑过的不足 0.1%。这意味着可能还有许多新药,能够治疗大量疾病和症状,从而以无数未曾料到的方式大幅提升我们的健康水平,正等待被发现。
这一现状不仅凸显了当前药物研发的局限性,也突显了尚未开发的巨大潜力。它表明我们亟需一场创新的飞跃——一种能够超越今天传统逐步推进方法的崭新思维。
利用 GPT 推动科学与药物发现
应对这一挑战的一种方法是借助一种在过去几年彻底改变我们生活的技术: GPT。GPT 是 Generative Pretrained Transformer 的缩写,它是一种训练于语言数据的 AI 机器学习模型,在接到提示后能够实时生成词语和句子的组合,而不仅仅是简单重复其训练内容——类似人类的表达方式。
毫无疑问, OpenAI 的 Chat GPT 和 Google 的 Gemini 都以此著称,从回答问题到生成食谱再到撰写大学论文,它们可以产出各种内容——而这只是众多基于 GPT 架构构建的 AI 中的两个例子。
GPT 技术同样可以应用于科学研究和药物发现,事实上在过去的几年中已经以这种方式得到了应用。将化学数据转化为基于字母的语言后训练的 GPT 模型,可以在接到提示后提出符合特定特性的全新分子。
例如,科学家可以请求生成一种具有水溶性、可安全摄入并能与特定酶发生相互作用的新分子。随后,可以通过添加更多所需特质来进一步调整结果。而传统方法通常需要繁琐的手动过程,并在每一阶段进行测试。每一次更改往往使研究人员不得不重新开始,因为调整一个参数常常会“破坏”其他参数,就像解魔方一样,修正一面的颜色可能会在其他地方引入错误。
与传统的手动方法相比,采用 GPT 技术能够大幅提升发现具有药用价值的新分子的成功率,为以更快的速度和更低的成本应对未满足的医疗需求打下基础。
然而,GPT 并非一夜之间便能解决所有问题的神奇解药。即使基于数百万个分子训练的 GPT 技术已被整合进药物发现流程,但由于训练集最多只包含几百万个分子,这仅是可能存在分子中的一小部分,因此仍难以生成具有理想特性的真正全新分子。作为背景说明,分子空间中潜在的小分子数量介于 10^60 到 10^100 之间,远远超过可观测宇宙中原子的总数。
变革结构生物学
最近的发展随着基础模型的采用,将 GPT 的这一核心创新提升到了新的层次。基础模型是在更大规模的数据集上训练而成,这一进展得益于计算能力的持续扩张。有了基础模型, AI 技术在分子发现和制药创新方面蕴藏着更大的潜力。
基础模型的一个杰出例子是 DeepMind 的 AlphaFold,其通过准确预测蛋白质结构,引发了结构生物学的巨大变革。这一能力依赖于处理数百万个参数,其规模和准确性显著超越了以往为此目的设计的 AI 模型。
AlphaFold 的影响深远,已发现了众多潜在的药物靶点,包括抗精神病药物、肝癌治疗以及针对罕见寄生虫感染的疗法。其在癌症研究及其他领域的广泛应用,进一步证明了它的变革潜力。
为表彰这一突破性成果, Google DeepMind 的 Demis Hassabis 和 John Jumper,与华盛顿大学的 David Baker(因其在计算蛋白设计方面的工作)共同获得了 2024 年诺贝尔化学奖。此项殊荣彰显了 AI 在蛋白质研究中带来的重大进步。
业内领袖预计, AlphaFold 的应用将持续扩大,进一步加速生物和医学研究。
在药物发现领域,基础模型也是潜在的颠覆性技术,因为它们能够在数十亿乃至更多分子及其参数上进行训练,而不只是几百万个分子。这庞大的训练数据量使得真正全新创新成为可能,因为模型涵盖了更多潜在分子世界的内容,且速度极快。首先,对于患者和医疗服务提供者来说,基础模型的意义在于它们有望带来更好的治疗方案。
该技术可以使小分子药物(基于化学实体的药物,其占市场绝大多数)受益。由于分子量低,这类药物易于进入细胞并与其他分子(包括蛋白质)相互作用,从而针对多种疾病和医疗状况。基础模型在寻求新配方设计新型小分子药物方面尤其有前景,这些药物可以顺利进入所需细胞,达到正确靶点,甚至可能实现治愈和疗效,同时也为罕见或无法治疗的疾病发现药物提供了可能。对于那些已有多种治疗方案但成本高昂、不舒适、疗效有限或仅有渐进改善的普遍病症——如癌症和糖尿病——寻找针对性的新型小分子解决方案对医疗未来同样至关重要。
对于制药公司而言,这些模型不仅为真正推动科学与健康发展提供了一种途径,而且还能高效地开发出独特的新分子,从而作为全新的物质组合申请专利,为行业注入新的动力。
即便有了 AI 技术的进步,制药公司仍然面临着趋同和 “me-too” 药物的问题,即许多药物研发者倾向于选择同样的靶点和候选药物,这些药物虽已被证明具有一定疗效,但只是以经济和实用的方式为现有疗效增量加分或开发出类似的竞争性疗法。基础模型则为减少此类趋势带来了更有前景的解决方案,并有望开发出跨越式的治疗方案,而不仅仅是在现有药物上做微小改进。这主要归功于基础模型包含了更多数据,因此提供了一种更高效、更低风险的方式来寻找新靶点和药物候选者。更为关键的是,基础模型凭借其规模降低了 AI 常见的幻觉风险,从而产生更可靠的结果和创新性新分子创意。
除了分子发现阶段外,基础模型正在药物设计和医疗保健的其他领域内取得变革性进展。例如,研究人员已经开始利用它们更好地分析复杂生物医学数据、预测药物的疗效与安全性、进行基因组测序、显微镜观察,并更好地理解特定靶点与疾病之间的联系。基于语言的用于小分子研究的基础模型有望为制药行业带来革命性变化,为制药企业提供大量有关目前服务不足或根本无治疗方案的疾病和状况的数据。
药物发现以及科学本身都是建立在数据基础上的领域。基础模型通过 GPT 或其他架构整合了海量数据,赋予了我们以前难以想象的新能力,从而为医学领域真正的突破奠定了基础,这些突破将真实改变人类生活和未来。
关于作者
Ruth Gross 博士是资深计算生物学公司 Evogene 的业务发展副总裁。Gross 博士凭借她在医学、市场营销、战略合作以及产品研发方面超过 10 年的专业经验,推动生物技术和生命科学领域的增长。
好文章,需要你的鼓励
华中科技大学与利哈伊大学研究团队开发的MMMR基准是首个专门评估多模态大语言模型推理思考过程的综合工具。通过1,083个跨六大领域的高难度推理任务和创新的推理过程评估管道,研究发现即使最先进的模型在推理任务上也与人类存在约10%的差距。研究揭示了答案准确性与推理质量间的脱节:模型常出现思考不一致(41.5%)、过度思考(20.5%)等问题。这一基准不仅评估答案正确性,更深入分析思考质量,为提升AI系统的可靠性和透明度提供了重要方向。
UI-Genie是一个创新的自我改进框架,解决了GUI智能体面临的两大挑战:轨迹验证困难和高质量训练数据缺乏。研究团队开发了专用奖励模型UI-Genie-RM,采用图像-文本交错架构有效处理历史上下文,并统一了步骤级和任务级奖励评估。通过精心设计的数据生成策略和迭代自我改进,该框架无需人工标注即可创建高质量合成轨迹。实验结果显示,经过三轮数据-模型自我改进后,UI-Genie在多个基准测试上达到了最先进水平。该研究已开源全部实现和数据集,为GUI智能体研究提供重要资源。
浙江大学和蚂蚁集团的研究团队开发了ACTIVE-O3,一种创新框架,赋予多模态大语言模型"主动感知"能力,使AI能够智能地决定"看哪里"和"怎么看"。基于群体相对策略优化(GRPO)构建,该系统采用两阶段策略,先选择关注区域,再执行任务。实验表明,ACTIVE-O3在小物体检测、密集物体定位和交互式分割等任务上显著优于现有方法,并展示出强大的零样本推理能力。该研究为AI系统提供了更接近人类认知的视觉探索能力,对自动驾驶、医疗诊断等领域具有重要应用价值。
ImgEdit是北京大学与兔小贝AI联合推出的图像编辑框架,解决了开源编辑模型落后于商业产品的问题。该框架包含120万对高质量编辑图像对,涵盖13种编辑类型和11万个多轮交互样本。通过融合视觉语言模型、检测模型和分割模型的多阶段流程,ImgEdit确保了数据的高质量性。研究团队基于此数据集训练了ImgEdit-E1模型,并提出ImgEdit-Bench评估基准,从指令遵循、编辑质量和细节保留三个维度全面评估模型性能。实验结果显示,ImgEdit-E1在多个任务上超越现有开源模型,推动了图像编辑技术的进步。