[发明专利]一种基于混合采样策略的中文电子病历命名实体识别方法在审
申请号: | 202211295864.1 | 申请日: | 2022-10-21 |
公开(公告)号: | CN115497590A | 公开(公告)日: | 2022-12-20 |
发明(设计)人: | 雷大江;魏琪;姜同远;田宏志;王烨;于洪;王国胤 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G16H10/60 | 分类号: | G16H10/60;G06F40/295;G06F40/126;G06F40/194;G06K9/62 |
代理公司: | 重庆辉腾律师事务所 50215 | 代理人: | 王诗思 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 采样 策略 中文 电子 病历 命名 实体 识别 方法 | ||
1.一种基于混合采样策略的中文电子病历命名实体识别方法,其特征在于,包括:
获取中文电子病历命名数据集样本,并将其划分为源领域数据集样本和目标领域数据集样本;
将源领域数据集样本输入到命名实体识别模型中,对其进行预训练;
将第一部分的目标领域数据集样本输入到预训练后的命名实体识别模型中,得到第一实体识别结果;
采用混合采样策略从所述第一实体识别结果中选择出对应的最优价值的目标领域数据集样本;
对选择出的目标领域数据集样本进行标签处理,将处理后的目标领域数据集样本输入到预训练后的命名实体识别模型,对其进行重训练;
将第二部分的目标领域数据集样本输入到重训练后的命名实体识别模型中,得到第二实体识别结果。
2.根据权利要求1所述的一种基于混合采样策略的中文电子病历命名实体识别方法,其特征在于,所述命名实体识别模型包括Bert层、Bilstm层和CRF层;所述Bert层用于对中文电子病历文本中的各个单词生成词嵌入向量;所述Bilstm层用于中文电子病历文本的词嵌入向量和序列特征进行整合并进行特征编码,得到标签;所述CRF层使用维特比算法得到最优的标签序列,所述标签序列即为对中文电子病历文本的实体识别结果。
3.根据权利要求1所述的一种基于混合采样策略的中文电子病历命名实体识别方法,其特征在于,对所述命名实体识别模型进行预训练包括定义损失函数,在预训练的过程中对命名实体识别模型参数进行更新,以不断减少损失,当所述损失函数收敛时,完成预训练,确定出预训练后的命名实体识别模型。
4.根据权利要求1所述的一种基于混合采样策略的中文电子病历命名实体识别方法,其特征在于,所述采用混合采样策略从所述第一实体识别结果中选择出对应的最优价值的目标领域数据集样本包括采用不确定采样策略结合代表性采样策略从第一部分的目标领域数据集样本筛选出最优价值的目标领域数据集样本,即利用不确定采样策略选择序列置信度高的序列样本,利用代表性采样策略选择信息密度大的序列样本。
5.根据权利要求4所述的一种基于混合采样策略的中文电子病历命名实体识别方法,其特征在于,利用不确定采样策略选择序列置信度高的序列样本所采用的公式包括计算每个序列样本在各个分词处的置信度,根据每个序列样本在各个分词处的的置信度计算出归一化置信度,选择出归一化置信度高的序列样本。
6.根据权利要求5所述的一种基于混合采样策略的中文电子病历命名实体识别方法,其特征在于,每个序列样本的置信度的计算公式表示为:
其中,ΦLE(xij)表示第j个序列样本在第i个分词xij处置信度,是第i个分词xi对应的最可能的标签序列,j={1,2,...,m},m表示序列样本个数,i={1,2,...,n},n表示每个序列样本中的分词数量。
7.根据权利要求5所述的一种基于混合采样策略的中文电子病历命名实体识别方法,其特征在于,每个序列样本的归一化置信度的计算公式表示为:
其中,ΦLC(xj)表示第j个序列样本xj的归一化置信度,是第i个分词xi对应的最可能的标签序列,j={1,2,...,m},m表示序列样本个数,i={1,2,...,n},n表示每个序列样本中的分词数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211295864.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种吹尘机构
- 下一篇:一种制备腺苷酸化核酸产物的方法