作为ChatGPT和谷歌Gemini等热门工具背后的技术,基于大语言模型(LLM)的生成式AI正在彻底改变各个行业,药物发现领域当然也不例外。通过运用AI之力以解码并操纵生物及化学语言,制药企业如今可以更快、更加经济高效地开发新药。在本文中,我们将一同了解生成式AI如何改变药物发现、加速开发过程并降低研发成本。
从传统角度讲,生成式AI的主要作用在于生成人类语言。但除此之外,其潜力早已跨过这条连坐,涵盖了复杂的生物和化学语言。举例来说,人类DNA可以看作是一条由30亿个字母组成的序列,这就形成了一种独特的语言。同样的,作为生命基石的蛋白质也拥有自己的字母表,也就是20种氨基酸。这些化学物质均可使用简化分子线性输入规范(SMILES)来定义其结构。
生成式AI技术能够解释这些语言,帮助发现并开发出新的药物疗法。通过将大模型类型的方法应用于这些生物和化学语言,AI模型能够发现以往无法观察到的见解,加快药物发现过程并显著降低成本。鉴于新药疗法的失败率很高——一般只有10%的药物能够顺利通过临床试验——任何有助于提高效率和降低时间和成本的技术,都将为整个产业贡献巨大价值。
生成式AI可以应用于药物发现的各个阶段:
1. 目标识别:第一阶段是识别待治疗的疾病或症状。生成式AI可以分析基因组数据,从而了解导致疾病或其他潜在生物过程的基因。这将有助于确定新药开发的确切目标。
2. 线索生成:第二阶段是生成潜在线索,也就是针对已识别疾病的化学物质或蛋白质。但由于可能的化学物质(超过10^60种)与蛋白质(超过10^160种)数量极多,因此导致这项任务颇为艰难。生成式AI技术能够筛选其中的可能性,并生成具有所需特性的新型化合物,从而产生大量可供探索的线索。
3. 优化:在第三阶段,需要对潜在候选药物进行功效测试。生成式AI可以协助这一大规模筛选过程。例如,英伟达与Recursion Pharmaceuticals的合作就表现出在一周之内,对超过2.8千万亿种小分子靶标对进行筛选的能力。如果用传统方法处理,这项任务需要10万年才能完成。
生成式AI将使制药公司以前所未有的规模、速度和准确性探索潜在新药,大大加快临床试验的进展。
目前有多家公司在运用生成式AI进行药物发现方面处于领先地位。一个著名案例就是Insilico Medicine,他们利用AI开发出一种治疗特发性肺纤维化的药物,这是一种会导致肺功能逐渐衰退的罕见疾病。传统上,整个研发过程需要六年时间,耗资超过4亿美元。但借助生成式AI,Insilico将成本降低至十分之一,并把研发周期缩短到了两年半。
Insilico将AI方案应用在临床前药物发现流程中的各个阶段,包括识别目标分子、生成新型候选药物以及预测临床试验结果。他们还成功开发出一种对所有变体均有疗效的AI生成COVID-19药物,并启动了30多个针对各类疾病(包括癌症)的其他项目。
生成式AI对药物发现具有变革性的影响,有望以极低的成本快速治愈多种疾病。凭借AI解码复杂生物与化学语言的能力,我们也许可以期待未来新药的开发流程将更快、更高效也更成功。生成式AI代表的不只是一项技术进步,更将颠覆整个医疗保健行业,在为全球患者带来更佳诊疗效果的同时,为未来药物的开发探明前所未有的道路。
好文章,需要你的鼓励
南洋理工大学研究团队开发了WorldMem框架,首次让AI拥有真正的长期记忆能力,解决了虚拟世界模拟中的一致性问题。该系统通过记忆银行存储历史场景,并使用智能检索机制,让AI能准确重现之前的场景和事件,即使间隔很长时间。实验显示在Minecraft和真实场景中都表现出色,为游戏、自动驾驶、机器人等领域带来广阔应用前景。
AWS通过升级SageMaker机器学习平台来扩展市场地位,新增观测能力、连接式编码环境和GPU集群性能管理功能。面对谷歌和微软的激烈竞争,AWS专注于为企业提供AI基础设施支撑。SageMaker新功能包括深入洞察模型性能下降原因、为开发者提供更多计算资源控制权,以及支持本地IDE连接部署。这些更新主要源于客户需求,旨在解决AI模型开发中的实际问题。
MTS AI研究团队提出RewardRanker系统,通过重排序模型和迭代自训练显著提升AI代码生成质量。该方法让13.4B参数模型超越33B大模型,在多种编程语言上表现优异,甚至在C++上超越GPT-4。通过引入困难负样本和PPO优化,系统能从多个代码候选中选出最优方案,为AI编程助手的实用化奠定基础。