近日,夸克正式发布健康大模型技术报告《QuarkMed Technical Report》,首次公开了“主任医师级”能力的技术实现细节。

QuarkMed Technical Report
此前,夸克健康大模型成功通过了中国 12 门核心学科的主任医师笔试评测,成为国内首个完成这一挑战的大模型。在与通用模型对比中,夸克健康大模型呈现出“难度越高、领先优势越明显”的性能曲线,尤其是在复杂医学推理任务中实现突破。本次技术报告系统披露了这一突破背后的关键路径与技术亮点。
面对医疗模型需要高质量、高专业度训练数据的问题,夸克健康大模型在模型训练不同阶段,使用了三类核心医疗数据:医学资料、医学知识和医疗记录,数据总量高达约1万亿Token。这些专业数据能有效弥补预训练语料库的不足,有助于提高模型的准确性与推理能力。

医疗数据源分类及规模
为提升模型正确性、安全性以及复杂推理能力,夸克健康大模型引入两个强化学习(RL)阶段。第一阶段通过大规模医学强化学习,提升大模型在复杂场景中的推理能力。第二阶段通过设计奖励模型,从诚实性、有用性、内容合规性三个角度评估模型输出质量、调整模型行为,使其符合人类偏好和价值观。

训练期间,针对一般任务和推理任务使用三种类型的奖励信号
技术报告同时还公布了多个性能测试结果。在MedQA等多个国际权威数据集测试中,夸克健康大模型相比o3-mini等同尺寸模型表现出了更优异的性能。在中国医师资格考试(CPQExam)笔试评测中,笔试难度越高,夸克健康大模型领先优势越明显。

CPQExam测试结果
报告中透露,夸克计划将医师考试测试集全面公开,以促进医学相关的AI研究。
好文章,需要你的鼓励
很多人担心被AI取代,陷入无意义感。按照杨元庆的思路,其实无论是模型的打造者,还是模型的使用者,都不该把AI放在人的对立面。
这项由香港中文大学和AWS团队联合开发的研究推出了TALK2MOVE系统,实现了用自然语言精准操作图片中物体的位置、角度和大小。该系统采用强化学习训练方式,通过空间感知奖励机制和智能步骤采样技术,在移动、旋转、缩放三类操作上的准确率显著超越现有方法,同时大幅降低了对昂贵训练数据的依赖,为AI图像编辑领域带来重要突破。
谷歌宣布对Gmail进行重大升级,全面集成Gemini AI功能,将其转变为"个人主动式收件箱助手"。新功能包括AI收件箱视图,可按优先级自动分组邮件;"帮我快速了解"功能提供邮件活动摘要;扩展"帮我写邮件"工具至所有用户;支持复杂问题查询如"我的航班何时降落"。部分功能免费提供,高级功能需付费订阅。谷歌强调用户数据安全,邮件内容不会用于训练公共AI模型。
斯坦福大学等知名机构联合研究发现,企业AI助手在执行组织政策时存在严重"偏科"问题:处理允许请求时成功率超95%,但拒绝违规请求时仅13-40%。研究团队开发的COMPASS评估框架通过8个行业5920个测试问题,揭示了AI助手普遍缺乏"拒绝技能"的问题,并提出了针对性训练解决方案。