5月27日,夸克健康大模型在12门国家副主任医师职称考试中成绩超过合格线,成为国内首个成功跨越这一门槛的大模型。这意味大模型在严肃医疗场景中迈出了从“知识记忆”向“临床推理”跃迁的关键一步。
此前,国内大模型多停留在临床执业医师资格考试阶段,只能拿到初级职称。夸克则实现了从初级到副高级职称的两级跳。夸克健康大模型以通义千问为基础,通过海量的高质量数据构建和多阶段后训练策略实现了此次突破。
全新的大模型能力已经可以直接通过夸克搜索调用。用户在使用中会发现,对于严肃医疗问题夸克会通过先分析后搜索,动态检索书籍、指南、药品说明书、医典论文等。这种高搜商的策略显著的提升了复杂病例的准确率。
此次副主任医师职称考试评测覆盖了12个常用学科,包括:全科医学、普通内科学、普通外科学、妇产科学、小儿内科学、肿瘤内科学、口腔医学、耳鼻咽喉科学、眼科学、皮肤与性病学、精神病学、麻醉学。在上述学科领域,夸克健康大模型均超过合格线,并在全科医学、肿瘤内科学、皮肤与性病学、精神病学4个学科达到主任医师及格线。

在初级与中级职称考试中,更小尺寸的夸克健康大模型相比满血版基础模型最高领先7分和10分左右。进入难度显著提高、强调临床综合运用的副高职称考试时,夸克最高领先幅度扩大至30分,在长链推理、诊疗路径规划上有显著提升。这项研究验证了垂直模型在性能提升上具备巨大潜力。
对题型维度的深入剖析显示,多选题与病例分析题是所有模型误判率最高的两类。个别通用基础模型在多选题上的正确率均不足60%,而夸克借助“医疗长思考”机制达到71%。在病例分析题中,夸克通过检索增强与分步推理组合策略,将正确率提升至53%。
夸克健康算法工程师徐健表示,“机器通过考试并不意味着可以替代医生,但它展示了在辅助诊疗决策、循证检索与患者沟通方面的巨大潜力。我们将不断强化模型能力,帮助医生和患者提升诊疗效率,为用户在居家场景下提供更多健康管理能力”。
好文章,需要你的鼓励
微软计划在未来四年内向印度投资175亿美元,这是该公司在亚洲的最大投资。投资将用于建设新数据中心、AI基础设施和技能培训项目。此举正值全球科技巨头加速在印度布局,该国庞大的互联网和智能手机用户群体使其成为关键战场。投资还包括在海德拉巴建设新数据中心区域,并与印度政府合作将AI能力整合到公共数字平台中。
快手科技研究团队提出了熵比截断机制,用于解决强化学习训练中AI容易"走偏"的问题。该方法通过监控AI学习前后思维活跃度变化,在关键时刻进行精准干预,既保证训练稳定性又维持探索能力。在数学推理任务中,此方法显著提升了模型性能并改善了训练稳定性,为AI训练领域提供了新的解决思路。
Window Maker Live 13.2基于Debian 13"Trixie"发布新版本,坚持为32位PC提供支持。该发行版围绕经典Window Maker X11窗口管理器构建,提供丰富的预装软件和NeXTstep风格界面。虽然Debian 13不再提供32位版本,但Window Maker Live 13.2仍默认支持32位系统。新版本仅3.5GB大小,占用8.4GB磁盘空间,内存使用仅270MB,为老旧硬件提供完整而强大的操作系统解决方案。
EditThinker是北京航空航天大学与美团等机构联合研发的图像编辑AI框架,让AI在编辑图片时能够像人类一样进行反复思考和优化。该系统通过"批评-优化-重试"的循环机制,将传统的一次性编辑转变为迭代改进过程,在四个权威测试平台上显著提升了现有编辑模型的表现,特别是在需要复杂推理的编辑任务中效果突出。