华为云与北大BIOPIC联合发布蛋白质多序列比对开源数据集

近日，华为与北京大学生物医学前沿创新中心（BIOPIC）、北京大学化学与分子工程学院、深圳湾实验室高毅勤教授课题组联合推出蛋白质多序列比对（Protein MSA）数据集。

　　近日，华为与北京大学生物医学前沿创新中心（BIOPIC）、北京大学化学与分子工程学院、深圳湾实验室高毅勤教授课题组联合推出蛋白质多序列比对（Protein MSA）数据集，希望在标准化的数据集基础上，支撑研究人员开发先进的AI模型，加深对蛋白质结构、功能和进化的认知，并进行蛋白设计与改造。此数据集将发布于华为云AI Gallery平台，相关代码及数据集说明将依托于华为全场景AI计算框架MindSpore进行开源开放、定期扩展与维护，旨在为全世界相关的产、学、研团队提供优质的数据共享解决方案。

　　本次开源的Protein MSA数据集完全覆盖最新版本（2021年2月发布）的UniRef50数据库中的蛋白质序列，采用学术界的“金标准”搜索方法，对约0.5亿条蛋白序列进行了充分的MSA搜索与比对（MSA平均深度大于1000），是目前世界范围内规模最大、参考数据集最新、覆盖度最广的开源蛋白质MSA数据集（之前最大的开源MSA数据集包含10万个蛋白MSA）【1】。

　　人类已知的蛋白质序列已经超过4.4亿条，但仅凭这些蛋白质单序列数据库，很难了解蛋白之间的关系。Protein MSA数据库是一个对不同蛋白质序列之间的关系进行了标记的大规模“关系型”数据库，被标记为关联的蛋白质序列之间的相似度、进化关系、突变所在位点的分布等信息对蛋白质结构和功能的预测极为重要。

　　为了更好地服务于跨领域的研究人员，Protein MSA数据集将被组织成具有多重形态的数据格式。原始数据集（近30T）将以UniRef系列数据库【2】和UniClust数据库【3】的标准文本形式存储，并按照序列长度进行分割与压缩。为了便于AI领域的研究人员直接使用，Protein MSA数据集还会将文本格式的数据集转化为浮点数张量类型压缩存储，并对已有的AI框架如MindSpore进行数据接口的支持。

　　高毅勤教授表示：“我们鼓励并期待来自生物信息学、数据科学和AI研究等领域的专家和人才充分碰撞与合作，引入、改进或设计全新的AI模型，来充分地挖掘Protein MSA数据集中所隐藏的‘自然的秘密’”。

　　从科学的角度看，MSA的数量和质量很大程度上影响了目前最先进结构模型的预测速度和精度，而且产生MSA的非参数化算法仍是诸多蛋白预测方法中决定速度的主要步骤之一。因此，Protein MSA数据库本身可以作为这些结构预测模型的预训练材料，用来挖掘序列信息甚至快速生成新的序列特征，这对解决研究、设计蛋白质中所面临的高变异序列和孤儿序列等问题具有巨大的潜在价值。

　　此次数据库的发布，依托于华为云AI Gallery平台，能够充分保障国内外用户对于数据集的访问和下载，并提供可持续更新与扩充的先进数据维护方案以及下游AI应用与部署的相关支持，融合了产、学、研相结合的研究模式的优势。此外，华为也与北京大学高毅勤课题组联合开发并开源了首个国产分子动力学软件MindSponge。未来，华为将牵手更多的学术科研界合作伙伴，在材料、生物、医药等更广泛的科学计算领域打造数据推动的研究新模式。

　　附：

　　数据集开源说明：

　　https://gitee.com/mindspore/mindscience/tree/master/MindSPONGE/protein_msa

　　数据集下载地址：

　　https://marketplace.huaweicloud.com/markets/aihub/datasets/detail/?content_id=5802def2-5fbd-40da-85d8-a4541d1c6f1e

　　【1】AlQuraishi, Mohammed. "ProteinNet: a standardized data set for machine learning of protein structure." BMC bioinformatics 20.1 (2019): 1-10.

　　【2】Suzek, B. E., Wang, Y., Huang, H., McGarvey, P. B., Wu, C. H., & UniProt Consortium. (2015). UniRef clusters: a comprehensive and scalable alternative for improving sequence similarity searches. Bioinformatics, 31(6), 926-932.

　　【3】Mirdita M.*, von den Driesch L.*, Galiez C., Martin M. J., Söding J.#, and Steinegger M.#, Uniclust databases of clustered and deeply annotated protein sequences and alignments, Nucleic Acids Res. 2016.

来源：业界供稿

华为云

0赞

好文章，需要你的鼓励

华为云与北大BIOPIC联合发布蛋白质多序列比对开源数据集

来源：业界供稿

2021

09/09

18:05

分享

点赞

为AI+而生，海辰储能发布全球首款锂钠协同AIDC全时长储能解决方案

长时储能开启智慧未来：海辰储能生态日全球首发三大新品

Arm 借助融合型 AI 数据中心，重塑计算格局

奥运级别的努力：首席信息官为2026年AI颠覆做准备

Spotify推出AI播放列表功能让用户掌控推荐算法

Adobe押注生成式AI获得回报，年度营收创历史新高

OpenAI与迪士尼达成十亿美元合作协议，米老鼠和漫威角色进入Sora

甲骨文150亿美元数据中心投资导致股价下跌

Spoor鸟类监测AI软件需求飞速增长

制药行业AI数据质量危机：垃圾进垃圾出的隐患

Harness获得2.4亿美元融资，估值达55亿美元，专注自动化AI编码后的开发流程

英伟达CEO黄仁勋独家专访：万亿美元押注AI工厂将成为新时代计算机

华为云盘古大模型赋能五大医药健康场景，全面加速行业创新

华为云康宁：加速应用鸿蒙化，华为云助力共赢

信通院发布！首个大模型混合云标准

华为Pura70手机电影上线，华为云空间成为其高效创作的幕后利器

用华为云空间，毕业开新局，存新梦

华为张平安：以架构创新提高系统竞争力，让AI重塑千行万业

在华为云空间存下毕业合照，珍藏青春回忆不遗漏

携手华为云，蘑菇物联引领工业公辅能源系统数智化节能革命

华为云提出五大举措加速AI落地，携手21家企业发布联合创新方案

华为云CTO张宇昕：系统性创新及服务重塑，打造AI Native的云

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一

2025 re:Invent ：亚马逊云科技把Agentic AI生态梳理明白了

电子竞技瞬息万变，Team Liquid的“数据+AI”制胜秘籍

中国移动呼和浩特数据中心：只有高效存力先行，AI才能跑出全力

从“支撑工具”到“智能中枢”，AI原生ERP进化

关注官方公众号

关注官方微博

关注官方喜马拉雅

友情链接

业界热点: