该方向以于琦教授为学术核心,主要以临床文本数据为研究对象,对临床文本数据进行深入挖掘与分析,开展医学经验知识抽取研究。临床文本数据作为一种直接面向患者的个性化医疗数据,充斥着医生基于自身所学所体现出来的临床经验,因此,面向临床文本数据的医学知识抽取研究可以大幅减少医生的行医压力,并为患者供多方面的医疗健康服务。
子方向一:面向临床文本数据的医学实体及其关系语料库建设
针对中文临床文本数据上语料匮乏导致相应研究无法开展的问题,本课题基于中文临床文本数据的特点,制定医学实体、医学实体修饰和医学实体关系的分类体系,并基于该体系构建语料库标注规范,并通过迭代式的语料标注方法来进行标注人员培训及标注规范更新,采取多种标注质量保证措施来进行语料库构建。
子方向二:面向临床文本数据的命名实体识别与实体关系分类研究研究。
本课题拟将基于字典、基于启发式规则和基于机器学习的命名实体识别方式有效结合,实现优势互补,并聘请领域专家对命名实体特征、命名规则以及识别结果进行把关,最大限度的提高命名实体识别的准确率;从基于卷积神经网络的实体关系分类和基于循环神经网络实体关系分类两方面进行结合研究,实现优势互补,并构建医学实体识别及实体关系分类的联合模型以提升医学知识抽取性能。