日前,第六届中国健康信息处理大会(CHIP 2020)举办的中文医学信息处理评测竞赛圆满结赛,腾讯天衍实验室依托其在医学领域的长期技术积累和创新探索,一举获得“中文医学文本命名实体识别”赛道冠军、“中文医学文本实体关系抽取”赛道亚军。


信息抽取(IE)技术方案突破升级
对于医学领域的自然语言文献,例如医学教材、医学百科、临床病例、医学期刊、入院记录、检验报告等,这些文本中蕴含大量医学专业知识和医学术语。将实体识别技术与医学专业领域结合,利用机器读取医学文本,可以显著提高临床科研的效率和质量,并且可服务于下游子任务。但要想让机器“读懂”医学数据,核心在于让计算机在大量医学文本中准确的提取出关键信息,这就涉及到了命名实体识别、关系抽取等自然语言处理技术。
命名实体识别(Named Entity Recognition, NER)和关系抽取(Relation Extraction, RE)是信息抽取(Information Extraction,IE)的两大核心任务。命名实体识别旨在抽取所需实体,以医疗领域为例,需要从非结构化医学文本中找出医学实体,如疾病、症状的过程;实体关系抽取则需要同时提取出医学实体及实体间的关系信息,即实体关系三元组 [头实体 (subject), 关系(predicate), 尾实体(object)]。

实体关系三元组示意
在两大评测任务中,腾讯天衍实验室从数据和模型层面做出了针对性设计。在命名实体识别任务中,天衍实验室使用的数据集由北京大学等院校及科研单位智慧医疗课题组联合构建。基于医疗领域对专业性、准确性的高标准要求,及目前命名实体识别任务存在的实体频次稀疏和实体长度偏长问题,天衍实验室采用指针解码的特殊方式,对单个实体的头尾位置进行解码,经过试验证明,该方法在较长实体中的表现确有明显提升。同时,天衍实验室基于自身在医疗领域的经验,尝试结合大量医疗文本训练领域自适应的新预训练模型,进一步提升了模型表现。最终在评比测试集上,结合多种不同策略,天衍实验室以F1值68.35获得第一名。
实体关系抽取评测任务的数据来源于中文医学信息抽取数据集CMeIE,也是目前最大的中文医学关系数据集。因该数据中存在大量实体重叠和关系重叠的现象,天衍实验室则采用了层叠指针网络的基础架构。首先通过两个二值分类器提取头实体的首尾位置,继而采用Conditional layer normalization的方式融入头实体信息,再针对每种关系,分别预测对应的尾实体。此外,为了更好地利用医疗词汇的语义信息,天衍实验室在输入层融入领域词向量,有效提升了实体边界预测的准确率。最终在测试集上取得单模型第一(F1 61.70),融合模型(F1 63.87)第二的成绩。
腾讯天衍实验室基于自身NLP能力和相关科研成果,不断通过一系列信息抽取相关竞赛测试、突破,不仅累积了丰富场景应用经验与方法,也将更好的辅助医疗行业技术升级和科研进步。
技术创新助力AI更“懂医”
在医疗领域,电子病历、生物医疗文献中存在大量的非结构化文本,采用信息抽取技术对医疗文本进行结构化,提取其中的疾病,症状,部位等实体,并对实体之间的关系进行判断,进而利用这些信息构建医疗知识图谱,不仅有利于人工智能更好地学到领域内的专业知识,更进一步提升导诊、辅诊、疾病预测等下游医疗任务的性能。
具体来说,医生在疾病诊断的过程中,不仅要知道患者的症状,而且要了解患者不同症状所对应的具体属性,例如症状发生的时间、部位、变化情况。天衍实验室AI导诊和疾病预测功能,正是采用了上述信息抽取技术,可模拟医生诊断过程,并提供循证路径和一定的可解释性。
如在AI导诊场景中,当用户输入主诉,AI导诊小程序可以返回推荐科室。用户主诉中可能包含多个症状,不同症状的时间、部位、严重程度、病因诱因可能对应不同的疾病,通过关系抽取技术,可以捕捉到不同症状的具体属性,从而有助于更精准的疾病预测和科室推荐。对于下图中的患者主诉,首先采用ner技术提取症状、检查等实体,继而采用关系抽取技术对不同症状的具体属性进行判断,例如症状“腹胀不适”,对应的部位为“上腹”,时间为“3月余”,变化条件为“进食后明显”,理解了症状的一系列细粒度属性,才能进一步判断可能的疾病和对应科室。

关系抽取演示图
腾讯天衍实验室致力于长期在自然语言基础、语言理解、信息抽取、知识图谱构建等进行研究创新,并将成果运用到落地的医疗自然语言等场景,目前已构建医疗行业大规模知识图谱,支持了数百家医院的辅诊、导诊、疾病辅助诊断、智能用药等产品,助力医保、医院、疾控中心和其他医疗机构的智能化知识挖掘和管理难题,实现知识化转型。
腾讯天衍实验室专注于医疗健康领域AI算法研究及落地,旨在依托NLP、知识图谱、大数据、医疗影像等技术系统,将算法能力输出到腾讯健康小程序、QQ浏览器、微信搜一搜等终端应用。与此同时,腾讯天衍实验室还与钟南山院士以及复旦肿瘤医院等头部医院建立联合实验室,与牛津大学、佐治亚大学、天津大学、微众银行AI部门等单位建立长期科研合作关系,目前已发表包括NIPS、KDD等多篇顶级学术论文,通过联合社会各界进行技术深入研究,腾讯天衍实验室将进一步加速科研应用落地,以服务于临床应用。
好文章,需要你的鼓励
大众汽车旗下ID. Polo与Cupra Raval已在西班牙马托雷尔工厂正式下线投产。两款车型起售价分别为24,995欧元和26,000欧元,均基于MEB+平台打造,搭载37kWh或52kWh电池组,续航里程最高可达454公里。这是大众"电动城市车家族"系列的首批产品,预计今年夏末秋初开始交付。大众集团通过跨品牌资源整合,实现约6亿欧元的成本节约,后续还将推出ID. Cross等新成员。
STATE16研究院这篇综述发现,物理AI系统存在"静默失效"风险——AI以高度自信执行基于错误世界信息的动作,却不触发任何报警,并提出在AI输出与物理执行之间建立独立授权层的框架。
三星宣布将于6月8日起为Samsung Health应用推出重磅功能更新,赶在Galaxy Watch 9传闻发布之前落地。新版本将引入多项AI驱动的生物特征分析功能,包括:综合心率、血氧、皮肤温度等数据的每日活力评分(Vitals)、结合体成分数据评估长期心脏健康的心脏健康评分、优化训练强度的每日有氧负荷追踪,以及横向对比用户群体的健身指数。此外,应用界面将重新划分为睡眠、营养、活动、正念和体征五大板块,并新增抗氧化指数、年龄指数和听力保护等个性化功能。
UIUC与微软联合研发的OpenWebRL框架让4B小模型仅凭400条初始数据,通过在真实网站上边做边学的强化学习方式,在网页智能体基准上超越了用27万条数据训练的竞争对手。