[发明专利]基于实体识别技术的中医药语句分词方法在审

专利信息
申请号: 201910967537.8 申请日: 2019-10-12
公开(公告)号: CN110879831A 公开(公告)日: 2020-03-13
发明(设计)人: 崔智颖;佘莉;黄剑平 申请(专利权)人: 杭州师范大学
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/205;G06F40/295;G06N3/04;G06N3/08
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 胡红娟
地址: 311121 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 实体 识别 技术 中医药 语句 分词 方法
【权利要求书】:

1.一种基于实体识别技术的中医药语句分词方法,其特征在于,包括步骤:

(A)采集中医药语句,进行数据清洗后作为语料库;

(B)统计所述语料库内相邻汉字组合的出现频次,从大于一定阈值的词语组合中提取出常用词组,组成词库W;计算其余相邻汉字组合的正向条件概率和逆向条件概率,提取符合指定阈值的组合加入所述词库W;

(C)对所述词库W进行分类,根据分类结果,使用标签对所述语料库每个序列的每个元素进行序列标注;

(D)采用Bert语言模型对所述语料库进行预训练并获得词向量;

(E)构建具有条件随机场的时间循环神经网络模型,基于标注数据集进行模型训练;

(F)向训练好的时间循环神经网络模型输入测试语句,得到预测实体列表;

(G)根据所述预测实体列表,对输入的测试语句进行第一次切分,将所述预测实体列表中所含元素切分出来;

(H)基于前缀词典扫描剩余待切分句子,生成句子中汉字所有可能成词情况,构成有向无环图;

(I)对所述有向无环图进行动态规划查找最大概率路径,找出基于词频的最大切分组合。

2.根据权利要求1所述的基于实体识别技术的中医药语句分词方法,其特征在于,步骤(B)中,分别按式(I)和式(II)进行正向条件概率和逆向条件概率的计算:

其中,对于任一X在前、Y在后的相邻汉字组合XY,P(Y|X)和P(X|Y)分别为该组合的正向条件概率和逆向条件概率,Count(XY)为该组合在所述语料库中出现的频次,Count(X)和Count(Y)分别为汉字X和汉字Y在所述语料库中出现的频次。

3.根据权利要求1所述的基于实体识别技术的中医药语句分词方法,其特征在于,步骤(C)中,将所述词库W分为“body”、“age-level”、“symptom”三种类型。

4.根据权利要求1或3所述的基于实体识别技术的中医药语句分词方法,其特征在于,步骤(C)中,根据分类结果,使用BIO标签对所述语料库每个序列的每个元素标注为“B-M”、“I-M”或“O”形式;

其中,“M”表示该元素所在的片段所属类型,“B”、“I”分别表示该元素在此片段的起始位置、非起始位置,“O”表示不属于任何类型。

5.根据权利要求1所述的基于实体识别技术的中医药语句分词方法,其特征在于,步骤(E)中,所述具有条件随机场的时间循环神经网络模型,包括:

双向长短期记忆网络层,用于提取输入序列的特征,其最终输出为序列中每个字符所属标签类型的概率分布矩阵;

条件随机场,根据所述概率分布矩阵,在所有可行标签序列空间中确定最合理序列路径,得到相应的字符标签。

6.根据权利要求1所述的基于实体识别技术的中医药语句分词方法,其特征在于,步骤(I)中,根据所述有向无环图,对句子从右往左反向计算最大概率;

所述有向无环图的每个节点均带权,对于在所述前缀词典里的词语,其权重即为它的词频。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州师范大学,未经杭州师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910967537.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top