[发明专利]一种用于肝癌病理文本命名的实体识别方法在审
申请号: | 202110864136.7 | 申请日: | 2021-07-29 |
公开(公告)号: | CN113627185A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 胡峰;何晓莲;张清华;高满;邓纬斌 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F16/35;G06N20/20;G16H50/70 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 卢胜斌 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 肝癌 病理 文本 命名 实体 识别 方法 | ||
本发明属于自然语言处理领域,具体涉及一种用于肝癌病理文本命名的实体识别方法,该方法包括:实时获取肝癌病理文本信息,对该文本信息进行预处理;将预处理后的文本信息输入到训练好的肝癌病理文本命名实体模型,得到肝癌病理文本信息识别结果;根据识别结果对肝癌病理文本信息进行分类标记;本发明可对肝癌病理文本的十类关键实体进行精准的识别抽取,实体识别效果较好。
技术领域
本发明属于肝癌体系化的标注知识库、命名实体识别、自然语言处理领域,具体涉及一种用于肝癌病理文本命名的实体识别方法。
背景技术
肝癌体系化的标注知识库:参考权威的诊疗规范文献,深入理解业务场景后构建肝癌体系化的标注知识库,标注知识库中包含对肝癌相关实体及实体属性的详细说明和文献来源。
命名实体识别:命名实体识别是把文本里包含的实体进行结构化处理,变成表格一样的组织形式。输入命名实体识别系统的是原始文本,输出的是固定格式的实体;实体从各种各样的文档中被抽取出来,然后以统一的形式集成在一起。命名实体识别技术并不试图全面理解整篇文档,只是对文档中包含相关实体的部分进行分析。
自然语言处理:自然语言处理是计算机科学领域与人工智能领域中的一个重要方向;自然语言处理即实现人机间自然语言通信,这一领域的研究将涉及自然语言,即人们日常使用的语言。
近年来,自然语言处理技术(NLP)发展迅速,并应用于各领域,其中就包括医疗人工智能。在传统的临床诊断中,医生想要了解病人的病理状态都是亲自从病理文本去提取信息,不仅要耗费大量精力并且效率不高。如果能够使NLP技术把医生所关注的实体准确的标注出来,可以极大提升医生的效率。而且提取的数据还可以用做科研数据,科研人员可以通过病理文本去挖掘多关系等医疗信息。并且在如今的医疗数据环境下,常常面临着少样本难题,所以针对少样本肝癌病理文本的命名实体识别已成为如今一个非常迫切的任务。
发明内容
为解决以上现有技术存在的问题,本发明提出了一种用于肝癌病理文本命名的实体识别方法,该方法包括:实时获取肝癌病理文本信息,对该文本信息进行预处理;将预处理后的文本信息输入到训练好的肝癌病理文本命名实体模型,得到肝癌病理文本信息识别结果;根据识别结果对肝癌病理文本信息进行分类标记;肝癌病理文本命名实体模型包括:NER教师模型、十折模型以及命名实体抽取模型;
对肝癌病理文本命名实体模型进行训练的过程包括:
S1:获取肝癌病理文本数据集,将该数据集输入到肝癌体系化标注知识库中,对肝癌病理文本数据集中的数据进行实体标注;
S2:将肝癌病理文本数据集输入到NER教师模型中,采用半监督-自训练方式得到训练集的标签soft label;
S3:将进行实体标注的肝癌病理文本数据集输入到十折模型进行训练,得到增强去噪后的实体标注肝癌病理文本数据集;将增强后的实体标注肝癌病理文本数据集与训练集的标签soft label进行合并,得到训练数据集;
S4:将训练集中的数据输入到命名实体抽取模型中进行训练,得到识别结果;
S5:根据识别结果计算模型的损失函数,采用AdamW优化器、基于余弦退火的学习率调整算法以及快照集成学习对模型的参数进行调整,当损失函数的值达到最小时,完成模型的训练。
优选的,对肝癌病理文本数据集中的数据进行实体标注的具体过程包括:将已知的标注数据作为先验知识获取具有权威性的原发性肝癌规范化病理诊断指南,根据原发性肝癌规范化病理诊断指南划分出肝癌病理十大类实体,并整理出体系化十大类实体标注导图;每个导图中包含每个实体的不同描述、情况以及参考文献;根据十大类实体标注导图对未标注的肝癌病理文本编写自动化标注脚本,得到实体标注的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110864136.7/2.html,转载请声明来源钻瓜专利网。