[发明专利]基于实体识别技术的中医药语句分词方法在审
申请号: | 201910967537.8 | 申请日: | 2019-10-12 |
公开(公告)号: | CN110879831A | 公开(公告)日: | 2020-03-13 |
发明(设计)人: | 崔智颖;佘莉;黄剑平 | 申请(专利权)人: | 杭州师范大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/205;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 311121 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 实体 识别 技术 中医药 语句 分词 方法 | ||
1.一种基于实体识别技术的中医药语句分词方法,其特征在于,包括步骤:
(A)采集中医药语句,进行数据清洗后作为语料库;
(B)统计所述语料库内相邻汉字组合的出现频次,从大于一定阈值的词语组合中提取出常用词组,组成词库W;计算其余相邻汉字组合的正向条件概率和逆向条件概率,提取符合指定阈值的组合加入所述词库W;
(C)对所述词库W进行分类,根据分类结果,使用标签对所述语料库每个序列的每个元素进行序列标注;
(D)采用Bert语言模型对所述语料库进行预训练并获得词向量;
(E)构建具有条件随机场的时间循环神经网络模型,基于标注数据集进行模型训练;
(F)向训练好的时间循环神经网络模型输入测试语句,得到预测实体列表;
(G)根据所述预测实体列表,对输入的测试语句进行第一次切分,将所述预测实体列表中所含元素切分出来;
(H)基于前缀词典扫描剩余待切分句子,生成句子中汉字所有可能成词情况,构成有向无环图;
(I)对所述有向无环图进行动态规划查找最大概率路径,找出基于词频的最大切分组合。
2.根据权利要求1所述的基于实体识别技术的中医药语句分词方法,其特征在于,步骤(B)中,分别按式(I)和式(II)进行正向条件概率和逆向条件概率的计算:
其中,对于任一X在前、Y在后的相邻汉字组合XY,P(Y|X)和P(X|Y)分别为该组合的正向条件概率和逆向条件概率,Count(XY)为该组合在所述语料库中出现的频次,Count(X)和Count(Y)分别为汉字X和汉字Y在所述语料库中出现的频次。
3.根据权利要求1所述的基于实体识别技术的中医药语句分词方法,其特征在于,步骤(C)中,将所述词库W分为“body”、“age-level”、“symptom”三种类型。
4.根据权利要求1或3所述的基于实体识别技术的中医药语句分词方法,其特征在于,步骤(C)中,根据分类结果,使用BIO标签对所述语料库每个序列的每个元素标注为“B-M”、“I-M”或“O”形式;
其中,“M”表示该元素所在的片段所属类型,“B”、“I”分别表示该元素在此片段的起始位置、非起始位置,“O”表示不属于任何类型。
5.根据权利要求1所述的基于实体识别技术的中医药语句分词方法,其特征在于,步骤(E)中,所述具有条件随机场的时间循环神经网络模型,包括:
双向长短期记忆网络层,用于提取输入序列的特征,其最终输出为序列中每个字符所属标签类型的概率分布矩阵;
条件随机场,根据所述概率分布矩阵,在所有可行标签序列空间中确定最合理序列路径,得到相应的字符标签。
6.根据权利要求1所述的基于实体识别技术的中医药语句分词方法,其特征在于,步骤(I)中,根据所述有向无环图,对句子从右往左反向计算最大概率;
所述有向无环图的每个节点均带权,对于在所述前缀词典里的词语,其权重即为它的词频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910967537.8/1.html,转载请声明来源钻瓜专利网。