AWS与约翰斯·霍普金斯大学惠廷工程学院格雷实验室近日宣布,联合推出抗体可开发性基准数据集(Antibody Developability Benchmark),这是一个面向AI/机器学习驱动的抗体设计领域的大规模多样化数据集,旨在为相关模型的评估提供有力支撑。
数据集核心构成
该数据集涵盖50个种子抗体,涉及四种结构格式,针对42种抗原,并对六项关键可开发性特征进行系统评估。这些特征直接关系到抗体从实验室研究走向实际应用的可行性,是衡量抗体设计质量的重要维度。
工程变体与湿实验室验证
数据集中包含经过工程化处理的抗体变体,这些变体同时涵盖可开发性表现优良与表现不佳两类结果,并均经过湿实验室实验的严格验证。这一设计使得数据集不仅具备理论价值,更具备实际应用参考意义,有助于研究人员更真实地评估模型在实际场景中的表现。
支持零样本学习评估
该基准数据集支持零样本学习(Zero-shot Learning)模式,即允许模型在未曾接触该数据集的情况下直接接受评估。这一特性有效避免了数据泄露对评估结果的干扰,显著提升了评估结论的可信度与客观性。
持续扩展与迭代
据悉,该数据集未来将持续扩充,计划纳入更多模型支持与属性维度,以推动AI驱动的抗体设计领域不断向前发展,为制药研究和生物技术创新提供更加坚实的数据基础。
Q&A
Q1:抗体可开发性基准数据集包含哪些内容?
A:该数据集包含50个种子抗体,涵盖四种结构格式,针对42种抗原,并对六项关键可开发性特征进行评估。数据集中还包括经过工程化处理的抗体变体,这些变体涵盖可开发性表现优良与不佳两类结果,所有数据均经过湿实验室实验的严格验证,具有较高的实际参考价值。
Q2:零样本学习在抗体设计评估中有什么优势?
A:零样本学习允许AI模型在未曾接触该基准数据集的前提下直接接受评估,这样可以有效避免模型因提前"见过"数据而产生的结果偏差,从而使评估结论更加客观、可信。对于研究人员来说,这种方式能更真实地反映模型在实际抗体设计任务中的泛化能力。
Q3:抗体可开发性基准数据集未来有哪些扩展计划?
A:根据AWS与约翰斯·霍普金斯大学惠廷工程学院格雷实验室的介绍,该数据集计划在未来持续扩充,将纳入更多AI/机器学习模型的支持,并增加更多抗体属性维度,以推动AI驱动的抗体设计领域持续改进,为制药研究和生物技术创新提供更全面的数据支撑。
好文章,需要你的鼓励
前OpenAI首席技术官Mira Murati创办的AI初创公司Thinking Machines Lab宣布推出"交互模型"技术。不同于现有AI的轮流对话方式,该模型采用"全双工"技术,能在接收输入的同时生成响应,实现类似真实电话通话的自然交互。其模型TML-Interaction-Small响应速度达0.40秒,优于OpenAI和谷歌同类产品。目前仍处于研究预览阶段,计划数月内开放有限测试,年内正式发布。
香港大学与哈尔滨工业大学联合发布的这项研究(arXiv:2605.06196)发现,大语言模型在扮演不同社会层级角色时,内部神经网络存在一条清晰的"粒度轴",从普通个人视角延伸至全球机构视角。这条轴是AI角色空间的主导几何方向,可被测量、被跨模型复现,并通过激活引导技术加以操控,为AI社会模拟的可信度评估和角色视角的主动调控提供了新工具。
澳大利亚各州及联邦能源部长在近期会议上达成共识,要求数据中心通过投资新建可再生能源和储能设施,完全抵消其电力需求。除昆士兰州外,所有州均支持该提议。联邦能源部长克里斯·鲍文表示,数据中心是新增能源需求的最大驱动力之一,应成为电网的助力而非负担。澳大利亚能源市场委员会将于7月前提交具体实施建议。数据显示,到2030年数据中心用电量预计将增至现在的三倍。
华盛顿大学研究团队发现,在AI数学推理训练中,将随机拼凑的拉丁文占位词(Lorem Ipsum)添加到题目前,能帮助AI突破"全部答错、训练停滞"的困境,在多个模型上平均提升推理得分2.8至6.2分。研究揭示了有效扰动的两个关键特征:使用拉丁语词汇避免语义干扰,以及保持较低困惑度确保AI能正确理解题目内容。