[发明专利]一种医疗命名实体识别的方法、装置及存储介质有效
申请号: | 202110894039.2 | 申请日: | 2021-08-05 |
公开(公告)号: | CN113392633B | 公开(公告)日: | 2021-12-24 |
发明(设计)人: | 赵韡;袁靖;刁晓林;廉晓丹;张飞 | 申请(专利权)人: | 中国医学科学院阜外医院 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/295;G06F16/33;G06F16/35;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100037 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 医疗 命名 实体 识别 方法 装置 存储 介质 | ||
1.一种医疗命名实体识别的方法,其特征在于,该方法包括:
利用基于字典的标注方法对参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第一标注结果;
利用基于人工的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第二标注结果;
利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第三标注结果;
将所述第一标注结果、所述第二标注结果和所述第三标注结果进行融合,将融合生成的标注结果作为第四标注结果,包括:将所述第一标注结果、所述第二标注结果、所述第三标注结果分别用二进制方式表示,1表示对应字符属于所述医疗命名实体,0表示对应字符不属于所述医疗命名实体;将用二进制方式表示的所述第一标注结果、所述第二标注结果和所述第三标注结果进行或运算,将连续为1的字符段作为待定标注结果;根据待定标注结果判断标注是否唯一,如果唯一,则将所述待定标注结果作为所述第四标注结果;如果不唯一,则根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果,将最终标注结果作为所述第四标注结果;
根据所述第四标注结果更新所述NER机器学习模型的参数,并返回到利用NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注的步骤进行迭代,直到迭代生成的所述第四标注结果符合预设阈值,获得训练后的NER机器学习模型;
将待识别的医疗文本输入所述训练后的NER机器学习模型,获得输出的医疗命名实体。
2.根据权利要求1所述的方法,其特征在于,所述根据词频统计结果以及事先为每一种标注方法设置的权重确定最终标注结果,将最终标注结果作为所述第四标注结果的步骤包括:
针对所述待定标注结果中对应的每一个分项标注结果分别进行词频统计,获得每一个分项标注结果对应的词频统计结果,所述词频统计是在事先获得的海量医疗文本集中统计每一个分项标注结果的出现频率;
如果每一个分项标注结果的词频统计结果相同,则根据事先为每一种标注方法设置的权重计算每一个分项标注结果的取值概率,将取值概率最大的分项标注结果作为所述第四标注结果;
如果每一个分项标注结果的词频统计结果不是都相同,则将词频统计结果最大的分项标注结果作为所述第四标注结果。
3.根据权利要求1或2所述的方法,其特征在于,所述利用命名实体识别NER机器学习模型的标注方法对所述参与训练的医疗文本进行医疗命名实体的标注,将标注结果作为第三标注结果的步骤包括:
将所述参与训练的医疗文本和BIO标注作为输入,输入到所述NER机器学习模型,所述BIO标注是事先将所述参与训练的医疗文本的标注结果利用BIO方式表示而生成的;
所述NER机器学习模型通过词嵌入层处理、特征提取处理、标签映射处理和CRF序列标注处理,实现对所述参与训练的医疗文本进行医疗命名实体的标注,并将标注结果作为第三标注结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国医学科学院阜外医院,未经中国医学科学院阜外医院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110894039.2/1.html,转载请声明来源钻瓜专利网。