[发明专利]医疗文本命名实体识别方法和装置有效
申请号: | 201810060974.7 | 申请日: | 2018-01-22 |
公开(公告)号: | CN108563626B | 公开(公告)日: | 2022-01-25 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 北京颐圣智能科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06N3/04;G06N3/08 |
代理公司: | 北京万思博知识产权代理有限公司 11694 | 代理人: | 柴国伟 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 医疗 文本 命名 实体 识别 方法 装置 | ||
1.一种医疗文本命名实体识别方法,包括:
步骤S11:将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;包括:
步骤S111:对所述医疗文本进行分词,计算分词后每个词语和标点的词向量;包括:首先,通过识别已标记的标点符号将医疗文本划分为若干分句,将分句进行分词,分句中的词语、标点均作为分词结果,根据分句中前面词语的权重估计下个词语出现的概率;其中,每个词语的权重wnk计算如下:
其中,fnk表示第k个分句中第n个词语出现的频率;m表示分句数量;dfn表示含有第n个词语的分句总数;然后,计算每两个词语之间的距离;然后,通过将各个分句中该词语出现的概率作为距离的系数,进而得到该词语的词向量;
步骤S112:将所有的词向量按照所述医疗文本中词语的顺序进行正向拼接,输入所述前向长短期记忆网络,得到第一输出结果;以及将所有的词向量按照所述医疗文本中词语的顺序进行反向拼接,输入所述后向长短期记忆网络,得到第二输出结果;其中,所述前向长短期记忆网络和所述后向长短期记忆网络的遗忘门的权重被设置为零;
步骤S12:利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;
步骤S13:利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;以及
步骤S14:将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。
2.根据权利要求1所述的医疗文本命名实体识别方法,其特征在于,步骤S14后还包括:
步骤S15:分别将所述全局最优标签序列中相同类别的标签及其对应的命名实体合并,得到最终的标签序列及命名实体序列。
3.根据权利要求1或2所述的医疗文本命名实体识别方法,其特征在于:所述第一激活函数为双曲正切激活函数,所述第二激活函数为Softmax激活函数。
4.一种医疗文本命名实体识别装置,包括:
长短期记忆网络计算模块,其配置成将所述医疗文本分别输入前向长短期记忆网络和后向长短期记忆网络,得到第一输出结果和第二输出结果;包括词向量计算模块和拼接计算模块,所述词向量计算模块配置成对所述医疗文本进行分词,计算分词后每个词语和标点的词向量,具体包括:首先,通过识别已标记的标点符号将医疗文本划分为若干分句,将分句进行分词,分句中的词语、标点均作为分词结果,根据分句中前面词语的权重估计下个词语出现的概率;其中,每个词语的权重wnk计算如下:
其中,fnk表示第k个分句中第n个词语出现的频率;m表示分句数量;dfn表示含有第n个词语的分句总数;然后,计算每两个词语之间的距离;然后通过将各个分句中该词语出现的概率作为距离的系数,进而得到该词语的词向量;所述拼接计算模块配置成将所有的词向量按照所述医疗文本中词语的顺序进行正向拼接,输入所述前向长短期记忆网络,得到第一输出结果;以及将所有的词向量按照所述医疗文本中词语的顺序进行反向拼接,输入所述后向长短期记忆网络,得到第二输出结果;其中,所述前向长短期记忆网络和所述后向长短期记忆网络的遗忘门的权重被设置为零;
第一激活函数计算模块,其配置成利用第一激活函数分别将所述第一输出结果和所述第二输出结果进行映射,并将映射后的结果合并,得到第三输出结果;
第二激活函数计算模块,其配置成利用第二激活函数对第三输出结果进行计算,得到n*r维矩阵P,其中,n表示将医疗文本进行分词后得到的词语的个数,r表示预先设置的标签的个数,矩阵P中的每一个元素pij表示第j个词语的标签为第i个标签的概率;和
全局最优标签序列计算模块,其配置成将矩阵P代入条件随机场转移矩阵,计算并得到与所述命名实体相对应的全局最优标签序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京颐圣智能科技有限公司,未经北京颐圣智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810060974.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于深度学习的自然语言生成方法
- 下一篇:启发式语音交互方法及装置