致力于推动英国在AI驱动药物发现领域占据领先地位的研究联盟OpenBind,近日宣布发布首个实验数据集和预测AI模型,标志着该项目迈出了重要的第一步。
OpenBind于去年正式成立,目标是构建全球规模最大的药物与蛋白质相互作用数据库,其数据量将是近几十年内其他同类项目的20倍。该数据库将用于支持AI模型的训练,帮助研究人员识别具有潜力的新型药物候选物。
此次项目的首批成果包括:699种化合物与EV-A71肠道病毒蛋白结合的高精度X射线图像。EV-A71肠道病毒与儿童中常见的手足口病(HFMD)轻症病例密切相关。
OpenBind团队还对其中601种化合物进行了结合强度测量,表示该数据集已是目前针对单一蛋白质靶点规模最大的公开数据集之一。与此同时,团队还专门为EV-A71 2A蛋白酶靶点开发了一款配套AI模型,并面向研究人员开放使用,以供开发和验证新型计算方法。
"这次首批发布是一个重要里程碑,表明我们已能够规模化生成高质量、标准化的数据,这些数据专门为AI驱动的药物发现而设计。"牛津大学结构生物信息学教授、OpenBind高级研究员夏洛特·迪恩(Charlotte Deane)教授表示。她补充道:"随着数据集持续扩展,将为研究人员提供提升模型性能所需的一致、可靠的信息支撑。"
与此同时,团队计划于本月底前后发布全新通用预测模型OpenBind v1。
OpenBind由牛津大学与英国国家同步辐射光源设施——位于牛津郡哈维尔科学园区的Diamond Light Source——共同创立,联盟成员还包括哥伦比亚大学、纪念斯隆凯特琳癌症中心、开放分子软件基金会、华盛顿大学的科学家,以及伦敦初创企业Isomorphic Labs等行业合作伙伴。
OpenBind指出,即便是当前结构生物学与药物发现领域最先进的AI系统,如谷歌DeepMind的AlphaFold和Recursion的Boltz,也受限于训练数据的质量与范围。这些系统虽然能够对与训练数据相似的生物结构进行建模,但对于与已知结构差异较大的新型靶点,其预测能力仍存在明显局限。
OpenBind项目获得了英国科学、创新与技术部旗下"主权AI基金"800万英镑的投资支持。
牛津大学统计学系副教授、OpenBind计算研究员弗格斯·伊姆里(Fergus Imrie)博士表示:"高质量的实验数据是开发新一代更优秀AI模型的核心基础。随着AI性能的不断提升,反过来又能引导未来实验方向,进一步加速发现进程。早期迭代周期中积累的经验,已帮助我们提升了整个研究流程的速度、一致性与可重复性,而这些对于OpenBind的持续扩展至关重要。"
Q&A
Q1:OpenBind是什么机构?主要做什么?
A:OpenBind是一个由牛津大学和Diamond Light Source共同创立的研究联盟,目标是构建全球最大的药物与蛋白质相互作用数据库,并基于此训练AI模型,用于识别具有潜力的新型药物候选物。其数据规模预计是近几十年同类项目的20倍,目前已获英国政府主权AI基金800万英镑投资支持。
Q2:OpenBind发布的首个AI模型主要针对哪种疾病?
A:首批发布的数据集和AI模型聚焦于EV-A71肠道病毒,该病毒与儿童常见的手足口病轻症病例相关。数据集包含699种化合物与病毒蛋白结合的X射线图像,以及601种化合物的结合强度测量数据,是目前针对单一蛋白靶点规模最大的公开数据集之一。
Q3:OpenBind的数据对现有AI药物发现模型有什么意义?
A:当前最先进的AI药物发现模型(如AlphaFold和Boltz)受限于训练数据的质量和覆盖范围,对与已知结构差异较大的新靶点预测能力有限。OpenBind提供的高质量、标准化实验数据,有助于提升模型性能,弥补现有系统在预测新型靶点方面的不足,从而加速药物发现进程。
好文章,需要你的鼓励
Anthropic首次将其最强AI模型向普通用户开放,但设有严格安全限制。Claude Fable 5在软件工程、知识工作和视觉任务方面表现突出,但在网络安全、生物、化学等高风险领域会自动屏蔽响应并回退至Claude Opus 4.8。该模型通过API和企业计划提供访问,定价为每百万输入令牌10美元、输出令牌50美元。Anthropic同时要求对所有流量保留30天数据,以防范新型越狱攻击。
香港科技大学等机构构建SpatialAct基准,测试视觉语言模型能否在3D场景中将空间理解转化为可靠行动,揭示AI存在显著的推理与行动鸿沟。
根据Salesforce与YouGov联合调查,美国工人比全球平均水平高出43%成为AI怀疑者,超过半数美国工人对AI持怀疑态度。与印度、泰国等新兴经济体80%以上的AI信任度相比,美国仅约50%。原因不仅在于担忧失业,还包括AI工具输出质量差、培训不足及数据基础薄弱等问题。研究显示,成功的AI应用需要高质量数据、员工培训与实验文化的共同支撑。
这项研究发现AI统一多模态模型中存在显著"模态鸿沟":文字知识编辑成功率高达92%,但图像生成验证准确率最高仅18.5%,并提出推理增强方法改善跨模态知识传递。