AWS与约翰斯·霍普金斯大学惠廷工程学院格雷实验室近日宣布,联合推出抗体可开发性基准数据集(Antibody Developability Benchmark),这是一个面向AI/机器学习驱动的抗体设计领域的大规模多样化数据集,旨在为相关模型的评估提供有力支撑。
数据集核心构成
该数据集涵盖50个种子抗体,涉及四种结构格式,针对42种抗原,并对六项关键可开发性特征进行系统评估。这些特征直接关系到抗体从实验室研究走向实际应用的可行性,是衡量抗体设计质量的重要维度。
工程变体与湿实验室验证
数据集中包含经过工程化处理的抗体变体,这些变体同时涵盖可开发性表现优良与表现不佳两类结果,并均经过湿实验室实验的严格验证。这一设计使得数据集不仅具备理论价值,更具备实际应用参考意义,有助于研究人员更真实地评估模型在实际场景中的表现。
支持零样本学习评估
该基准数据集支持零样本学习(Zero-shot Learning)模式,即允许模型在未曾接触该数据集的情况下直接接受评估。这一特性有效避免了数据泄露对评估结果的干扰,显著提升了评估结论的可信度与客观性。
持续扩展与迭代
据悉,该数据集未来将持续扩充,计划纳入更多模型支持与属性维度,以推动AI驱动的抗体设计领域不断向前发展,为制药研究和生物技术创新提供更加坚实的数据基础。
Q&A
Q1:抗体可开发性基准数据集包含哪些内容?
A:该数据集包含50个种子抗体,涵盖四种结构格式,针对42种抗原,并对六项关键可开发性特征进行评估。数据集中还包括经过工程化处理的抗体变体,这些变体涵盖可开发性表现优良与不佳两类结果,所有数据均经过湿实验室实验的严格验证,具有较高的实际参考价值。
Q2:零样本学习在抗体设计评估中有什么优势?
A:零样本学习允许AI模型在未曾接触该基准数据集的前提下直接接受评估,这样可以有效避免模型因提前"见过"数据而产生的结果偏差,从而使评估结论更加客观、可信。对于研究人员来说,这种方式能更真实地反映模型在实际抗体设计任务中的泛化能力。
Q3:抗体可开发性基准数据集未来有哪些扩展计划?
A:根据AWS与约翰斯·霍普金斯大学惠廷工程学院格雷实验室的介绍,该数据集计划在未来持续扩充,将纳入更多AI/机器学习模型的支持,并增加更多抗体属性维度,以推动AI驱动的抗体设计领域持续改进,为制药研究和生物技术创新提供更全面的数据支撑。
好文章,需要你的鼓励
Replit与RevenueCat达成合作,将订阅变现工具直接集成至Replit平台。用户只需通过自然语言提示(如"添加订阅"),即可完成应用内购和订阅配置,无需离开平台。RevenueCat管理超8万款应用的订阅业务,每月处理约10亿美元交易。此次合作旨在让"氛围编程"用户在构建应用的同时即可实现商业变现,月收入未达2500美元前免费使用,超出后收取1%费用。
LiVER是由北京大学、北京邮电大学等机构联合提出的视频生成框架,核心创新是将物理渲染技术与AI视频生成结合,通过Blender引擎计算漫反射、粗糙GGX和光泽GGX三种光照图像构成"场景代理",引导视频扩散模型生成光影物理准确的视频。框架包含渲染器智能体、轻量化编码器适配器和三阶段训练策略,支持对光照、场景布局和摄像机轨迹的独立精确控制。配套构建的LiVERSet数据集含约11000段标注视频,实验显示该方法在视频质量和控制精度上均优于现有方法。
所有人都说AI需要护栏,但真正在构建它的人寥寥无几。SkipLabs创始人Julien Verlaguet深耕这一问题已逾一年,他发现市面上多数"护栏"不过是提示词包装。为此,他打造了专为后端服务设计的AI编程智能体Skipper,基于健全的TypeScript类型系统与响应式运行时,实现增量式代码生成与测试,内部基准测试通过率超90%。他认为,编程语言的"人类可读性时代"正走向终结,面向智能体的精确工具链才是未来。
这项由蒙特利尔学习算法研究所(Mila)与麦吉尔大学联合发布的研究(arXiv:2604.07776,2026年4月)提出了AGENT-AS-ANNOTATORS框架,通过模仿人类数据标注的三种角色分工,系统化生成高质量网页智能体训练轨迹。以Gemini 3 Pro为教师模型,仅用2322条精选轨迹对90亿参数的Qwen3.5-9B模型进行监督微调,在WebArena基准上达到41.5%成功率,超越GPT-4o和Claude 3.5 Sonnet,并在从未见过的企业平台WorkArena L1上提升18.2个百分点,验证了"数据质量远比数量重要"这一核心结论。