华为云与北大BIOPIC联合发布蛋白质多序列比对开源数据集

近日，华为与北京大学生物医学前沿创新中心（BIOPIC）、北京大学化学与分子工程学院、深圳湾实验室高毅勤教授课题组联合推出蛋白质多序列比对（Protein MSA）数据集。

　　近日，华为与北京大学生物医学前沿创新中心（BIOPIC）、北京大学化学与分子工程学院、深圳湾实验室高毅勤教授课题组联合推出蛋白质多序列比对（Protein MSA）数据集，希望在标准化的数据集基础上，支撑研究人员开发先进的AI模型，加深对蛋白质结构、功能和进化的认知，并进行蛋白设计与改造。此数据集将发布于华为云AI Gallery平台，相关代码及数据集说明将依托于华为全场景AI计算框架MindSpore进行开源开放、定期扩展与维护，旨在为全世界相关的产、学、研团队提供优质的数据共享解决方案。

　　本次开源的Protein MSA数据集完全覆盖最新版本（2021年2月发布）的UniRef50数据库中的蛋白质序列，采用学术界的“金标准”搜索方法，对约0.5亿条蛋白序列进行了充分的MSA搜索与比对（MSA平均深度大于1000），是目前世界范围内规模最大、参考数据集最新、覆盖度最广的开源蛋白质MSA数据集（之前最大的开源MSA数据集包含10万个蛋白MSA）【1】。

　　人类已知的蛋白质序列已经超过4.4亿条，但仅凭这些蛋白质单序列数据库，很难了解蛋白之间的关系。Protein MSA数据库是一个对不同蛋白质序列之间的关系进行了标记的大规模“关系型”数据库，被标记为关联的蛋白质序列之间的相似度、进化关系、突变所在位点的分布等信息对蛋白质结构和功能的预测极为重要。

　　为了更好地服务于跨领域的研究人员，Protein MSA数据集将被组织成具有多重形态的数据格式。原始数据集（近30T）将以UniRef系列数据库【2】和UniClust数据库【3】的标准文本形式存储，并按照序列长度进行分割与压缩。为了便于AI领域的研究人员直接使用，Protein MSA数据集还会将文本格式的数据集转化为浮点数张量类型压缩存储，并对已有的AI框架如MindSpore进行数据接口的支持。

　　高毅勤教授表示：“我们鼓励并期待来自生物信息学、数据科学和AI研究等领域的专家和人才充分碰撞与合作，引入、改进或设计全新的AI模型，来充分地挖掘Protein MSA数据集中所隐藏的‘自然的秘密’”。

　　从科学的角度看，MSA的数量和质量很大程度上影响了目前最先进结构模型的预测速度和精度，而且产生MSA的非参数化算法仍是诸多蛋白预测方法中决定速度的主要步骤之一。因此，Protein MSA数据库本身可以作为这些结构预测模型的预训练材料，用来挖掘序列信息甚至快速生成新的序列特征，这对解决研究、设计蛋白质中所面临的高变异序列和孤儿序列等问题具有巨大的潜在价值。

　　此次数据库的发布，依托于华为云AI Gallery平台，能够充分保障国内外用户对于数据集的访问和下载，并提供可持续更新与扩充的先进数据维护方案以及下游AI应用与部署的相关支持，融合了产、学、研相结合的研究模式的优势。此外，华为也与北京大学高毅勤课题组联合开发并开源了首个国产分子动力学软件MindSponge。未来，华为将牵手更多的学术科研界合作伙伴，在材料、生物、医药等更广泛的科学计算领域打造数据推动的研究新模式。

　　附：

　　数据集开源说明：

　　https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE/protein_msa

　　数据集下载地址：

　　https://marketplace.huaweicloud.com/markets/aihub/datasets/detail/?content_id=5802def2-5fbd-40da-85d8-a4541d1c6f1e

　　【1】AlQuraishi, Mohammed. "ProteinNet: a standardized data set for machine learning of protein structure." BMC bioinformatics 20.1 (2019): 1-10.

　　【2】Suzek, B. E., Wang, Y., Huang, H., McGarvey, P. B., Wu, C. H., & UniProt Consortium. (2015). UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches. Bioinformatics, 31(6), 926-932.

　　【3】Mirdita M.*, von den Driesch L.*, Galiez C., Martin M. J., Söding J.#, and Steinegger M.#, Uniclust databases of clustered and deeply annotated protein sequences and alignments, Nucleic Acids Res. 2016.

来源：业界供稿

华为云

0赞

好文章，需要你的鼓励

华为云与北大BIOPIC联合发布蛋白质多序列比对开源数据集

来源：业界供稿

2021

09/09

18:05

分享

点赞

Docker统一容器开发与AI智能体工作流程

情感AI的十字路口：从马斯克的虚拟伴侣到腾讯的共情革命

CoDesign 2025国际研讨会在大阪召开 共探高性能计算与AI融合新路径

自写互联网：Dfinity的Caffeine AI是否为应用开发者敲响警钟

Meta利用AI创造低碳混凝土并用于数据中心地板浇筑

Slack宣称其AI能够理解公司的专业术语和行话

Adobe新AI工具将搞怪噪音转换成逼真音效

AI是新的Android恶意软件吗？手机厂商争夺用户注意力的战争

NetBox Labs获得3500万美元融资推动基础设施运营现代化

边缘计算趋势：采用现状、挑战与未来展望

Liqid发布支持CXL 2.0内存池的可组合GPU服务器

Uber携手Lucid和Nuro部署2万辆自动驾驶出租车

华为云盘古大模型赋能五大医药健康场景，全面加速行业创新

华为云康宁：加速应用鸿蒙化，华为云助力共赢

信通院发布！首个大模型混合云标准

华为Pura70手机电影上线，华为云空间成为其高效创作的幕后利器

用华为云空间，毕业开新局，存新梦

华为张平安：以架构创新提高系统竞争力，让AI重塑千行万业

在华为云空间存下毕业合照，珍藏青春回忆不遗漏

携手华为云，蘑菇物联引领工业公辅能源系统数智化节能革命

华为云提出五大举措加速AI落地，携手21家企业发布联合创新方案

华为云CTO张宇昕：系统性创新及服务重塑，打造AI Native的云

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

AWS re:Inforce：费城这天不只拼进球，还拼生成式AI安全

在欧洲之门马德里，我们再次见证了SAP激活企业增长的“飞轮”

IEEE专家委员胡凝：消解AI幻觉“阴影”，洞见“超级个体”价值锚点

生成式AI催生新物种，SaaS CRM掀起下半场变革战

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点:

CoDesign 2025国际研讨会在大阪召开共探高性能计算与AI融合新路径