[发明专利]一种中文电子病例医疗实体词类标注方法在审
申请号: | 202210123929.8 | 申请日: | 2022-02-10 |
公开(公告)号: | CN114492444A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 杜金莲;杨金昭;金雪云;杜晓林;王丹 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 电子 病例 医疗 实体 词类 标注 方法 | ||
本发明公开了一种中文电子病例医疗实体词类标注方法,该方法包括两部分,第一部分为细粒度中文电子病历医疗实体类别划分规则制定与语料数据集构建;第二部分为基于结合门控注意力机制的中文电子病历医疗实体词类标注方法;根据中文电子病历文本特点制定了一种细粒度中文电子病历医疗实体标注规则,同时依照此规则构建了中文电子病历医疗实体语料数据集,并且基于中文电子病历行文特点发明了一种结合门控注意力机制的GATTLCN模型,通过门控注意力网络动态选择需要重点关注的上下文元素来增强文本聚焦,提升模型效果。运用此发明解决了中文电子病历细粒度医疗实体词类标注方面存在的不足。
技术领域
本发明涉及医疗实体词类标注领域,具体包括中文电子病历医疗实体类别标注规则与数据集的构建,以及一种结合门控注意力机制的Bi-LSTM+CRF联合网络模型(GATTLCN模型)对中文电子病历进行医疗实体词类标注的方法。
背景技术
在科学技术飞速发展的时代背景下,随着“互联网+医疗”技术的不断发展,越来越多的研究开始聚焦在计算机与医疗信息的交叉领域。在医疗信息化飞速发展的时代,各大医院都积累了海量的临床电子病历数据。电子病历(Electronic Medical Record,EMR)也称之为基于计算机的病人记录。它是通过电子设备(计算机、电子卡等)对患者在就医过程中产生的临床医疗记录进行数字化的存储、传输、重现和管理,用以取代手写纸张病历。电子病历的内容包括原始纸张病历的所有信息,是指医务人员在医疗活动过程中使用医疗机构信息系统生成的文本、图形、符号、影像等数字化的信息,并能实现存储、传输、重现和管理的医疗记录。
当前电子病历系统在国内各医疗机构已经得到了非常广泛的应用前景,研究者对电子病历的认识也更加完善,它不仅包含患者的临床诊治信息,如症状描述,检查结果,疾病诊断,治疗措施等信息,同时还包含了海量的医疗实体信息,然而要想实现电子病历医疗实体信息的电子化,并且在此基础上进一步挖掘其潜在医学价值,对电子病历文本中的医疗实体进行结构化这一点就显得尤为重要。电子病历医疗实体词类标注是构建医疗知识图谱、医疗决策辅助的第一步,其医疗实体标注效果直接决定了辅助医疗决策的效果与质量。
早在上个世纪八九十年代国外就开展了对电子病历信息结构化提取方面的相关研究。然而我国电子病历相关研究起步较晚,自我国卫生部提出卫生信息化建设方案以来,临床和科研界都开展了大量针对电子病历的研究。同时在中文电子病历的医疗词类实体标注研究方面的研究目前同样大幅落后,不仅没有标准、统一的医疗实体类别定义,还缺少能够有效应对病历文本特点的研究方法。
目前通用文本领域词性标注技术日益成熟,像THULAC、Jieba等词性标注工具在通用领域公开数据集上标注准确率都达到了90%以上。然而在处理中文电子病历医疗实体词类标注这种特殊领域中,由于当前并没有一个统一的医疗实体划分标准,以及电子病历独特的语法结构与文本风格,现有标注工具包无法对中文电子病历中的医疗实体进行准确标注。
对中文电子病历中的医疗实体进行词类标注,其本质上就是在对中文电子病历做命名实体识别(NER)任务。医疗实体是电子病历中相关医学知识的主要载体,临床命名实体识别(Clinical Named Entity Recognition,CNER)也是中文电子病历文本分析处理中最基础性的任务之一。近些年来研究人员针对电子病历命名实体识别展开了广泛的研究,并且提出了许多高准确率的方法。这些方法大体可以分为:基于规则与词匹配的方法、基于机器学习的方法、基于深度学习的方法三种类型。
此外注意力机制在与各种模型联合使用中取得了很好的效果,但是传统注意力机制关注输入句子的全部单词,从整个隐藏状态序列中聚合信息,其计算输入源中每个位置隐向量的注意力权重然后获取文本聚焦向量。然而在中文电子病历医疗实体词类标注任务中,输入基于每一份病历,在标注过程中并不需要对每个单词都分配注意力权重,即并不是所有注意力都是必须的,尤其是在长序列电子病历文本中。因此为了能更好的提取文本聚焦语义,本发明采用了门控注意力机制来提高模型性能,通过辅助门结构来动态选择需要关注的单词集合,然后计算文本聚焦向量,其避免了对所有元素进行计算,并允许模型动态关注序列中重要的部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210123929.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种垃圾自动分拣多目标检测方法
- 下一篇:一种基于人口老龄化的老年人护理装置