[发明专利]一种中文电子病例医疗实体词类标注方法在审
申请号: | 202210123929.8 | 申请日: | 2022-02-10 |
公开(公告)号: | CN114492444A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 杜金莲;杨金昭;金雪云;杜晓林;王丹 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/33;G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 中文 电子 病例 医疗 实体 词类 标注 方法 | ||
1.一种中文电子病例医疗实体词类标注方法,其特征在于:实现该标注方法主要包括两部分:
第一部分细粒度中文电子病历医疗实体类别划分规则制定与语料数据集构建包括以下步骤:
步骤一:制定中文电子病历医疗实体类别划分规则;
参考UMLS语义类型中对医疗实体类别的定义,将中文电子病历医疗实体划分为六大基本实体类别:人体部位、症状、药物、治疗、疾病与检验;在基本类别的基础上制定了十种延伸类别:时间点、时间段、具体情景、医学指标、病史、非患者本人、否定词、高程度、低程度和机构;最后设定“无具体类别”用于标注不属于上述类别的实体;
步骤二:人工标注,构建中文电子病历医疗实体标注语料数据集;
步骤二中标注工作完全按照定义的医疗实体划分类别进行,步骤二中标注工作分为两个阶段进行;第一阶段在专业人员的全程指导下进行;第二阶段由专业人员对标注结果进行统一抽样检查与修正;
第二部分为基于结合门控注意力机制的中文电子病历医疗实体词类标注方法包括以下步骤:
步骤一:获取中文电子病历词向量,采用word2vec的skip-gram模型对分词后的中文电子病历文本进行训练获取中文电子病历的低维稠密向量;
步骤二:获取中文电子病历上下文语义信息,将步骤一中获得的词向量作为输入向量,输入到双向长短期记忆网络中,提取输入文本的上下文语义信息,捕获中文电子病历文本的序列信息与中远程依赖信息;
步骤三:使用门控注意力层提取中文电子病历文本语义聚焦向量,将步骤二输出的隐向量作为输入向量,输入到门控注意力网络中,从文本全局来聚焦关注那些对于当前任务更关键的信息,过滤掉与当前任务无关的信息;通过将门控注意力机制应用到模型当中,使得模型动态的计算电子病历文本中词的权重,得出每个词对不同医疗实体的重要性,过滤掉那些无关紧要的信息,增强模型的动态语义聚焦能力;
步骤四:使用条件随机场充分考虑医疗实体标签之间的约束与依赖关系,将步骤三输出的文本语义聚焦向量作为输入向量,输入到CRF层中根据上下文医疗实体句子级别标签信息来预测得到最佳医疗实体词类标签;
步骤五:用训练好的GATTLCN联合网络模型对测试数据集进行医疗实体词类标注。
2.根据权利要求1所述的一种中文电子病例医疗实体词类标注方法,其特征在于:第二部分的步骤一中,使用已经分好词的中文电子病历训练词向量,采用word2vec的skip-gram模型来获取中文电子病历的低维稠密词向量,词向量维度设置为100维;得到每个单词向量为:X={x1,x2,……,x100},每个句子的文本向量为:S={X1,X2,……,Xn},其中n为每个句子长度,每个单词向量的维度为100。
3.根据权利要求1所述的一种中文电子病例医疗实体词类标注方法,其特征在于:第二部分的步骤二中,Bi-LSTM层使用步骤一中输出的词向量Xt作为输入;LSTM神经网络单元对隐藏层进行了巧妙的门结构设计,其使用三个逻辑门输入门、输出门、遗忘门来控制输入数据传输到记忆单元的比例,以及遗忘先前状态的比例,提取病历文本的上下文语义信息;
为了能够同时考虑电子病历上下文语义信息,采用双向LSTM来从全局上下文信息中学习句子的隐藏表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210123929.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种垃圾自动分拣多目标检测方法
- 下一篇:一种基于人口老龄化的老年人护理装置