[发明专利]一种基于知识库的特定人员信息纠错方法有效
申请号: | 201910865592.6 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110941720B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 黄瑞章 | 申请(专利权)人: | 贵州耕云科技有限公司;贵州大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30;G06F18/22 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 于国强 |
地址: | 550080 贵州省贵阳市贵阳国家高新技*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识库 特定 人员 信息 纠错 方法 | ||
1.一种基于知识库的特定人员信息纠错方法,其特征在于,包括如下步骤:
S1,对目标文本进行预处理,同时建立常见错误词典;
S2,使用常见错误词典对目标文本进行匹配纠错;
S3,对目标文本进行识别,获取人名或/和称谓信息;
S4,对识别获取到的人名与本文人名信息库和知识库中人名进行对比,并计算人名相似度;
S5,判断目标文本中人名相关信息是否正确,对错误项进行纠错并将正确信息加入本文人名信息库;
步骤S3中文本识别的方式:
S3.1,使用HanLP工具辅助Double-LSTM边界识别模型对句子中的人名及称谓信息进行识别;
S3.2,提取人名字符串的拼音特征、五笔特征;
步骤S31中具体包括:
1)遍历目标文本中的每个字,以当前字为中心将句子分为左子句和右子句;
2)将所述左子句和所述右子句分别输入两个不同的LSTM进行编码;
3)将编码后的向量级联输入全链接层进行分类,判断当前字是否为实体开始边界;
4)取以边界为开头的2-gram和3-gram作为候选人名,并使用HanLP工具对句子进行分词,按词性nr识别人名;
5)通过分词后的词性来识别称谓nnt,在称谓上下文寻找距离最近的人名作为称谓所属的人名;
步骤S4中具体包括:
S4.1,判断识别后的人名是否与知识库中人名相同,若识别出的人名是知识库中特定人员人名,则将识别出的人名存入“本文特定人员人名集合”,否则存入“疑似错误人名集合”;
S4.2,计算疑似错误人名与本文特定人员人名的人名相似度I;当人名相似度I大于阈值,则通过本文特定人员人名进行纠正;否则,进入步骤S43;
S4.3,计算疑似错误人名与知识库人名的人名相似度II,判断人名相似度II是否大于阈值,若是则通过知识库人名进行纠正,否则,判断该人名不是需要纠错的人名;
步骤S4.2具体包括:
人名相似度I计算:人名相似度I=人名拼写相似度I+称谓相似度I;人名拼写相似度及称谓相似度计算如下;
人名拼写相似度I计算:分别计算本文特定人员人名和疑似错误人人名的字符串、拼音、五笔的编辑距离,最后计算三个编辑距离的加权平均作为综合距离;比较综合距离是否大于给定阈值,若小于阈值的话,则人名拼写相似度=阈值-综合距离,否则人名拼写相似度I=0;该阀值可视具体应用情况由认为给定;
称谓相似度I计算:称谓相似度I=当前人名的称谓集与知识库特定人员人名的称谓集的交集元素个数/当前人名称谓集元素个数;如果当前人名称谓集不为空,但交集为空,则称谓相似度I为负;
步骤S4.3具体包括:
人名相似度II计算:人名相似度II=人名拼写相似度II+称谓相似度II;人名拼写相似度II及称谓相似度II计算如下;
人名拼写相似度II计算:分别计算知识库的特定人员人名和疑似错误人人名的字符串、拼音、五笔的编辑距离,最后计算三个编辑距离的加权平均作为综合距离;比较综合距离是否大于给定阈值,若小于阈值的话,则人名拼写相似度II=阈值-综合距离,否则人名拼写相似度II=0;
称谓相似度计算:称谓相似度II=疑似错误人人名的称谓集与知识库特定人员人名的称谓集的交集元素个数/疑似错误人人名称谓集元素个数;如果疑似错误人人名称谓集不为空,但交集为空,则称谓相似度II为负。
2.根据权利要求1所述的基于知识库的特定人员信息纠错方法,其特征在于,步骤S1中预处理包括分句预处理,将文本中句子按文中分句符进行分句;本方法以句子为序列单位进行计算。
3.根据权利要求1所述的基于知识库的特定人员信息纠错方法,其特征在于,步骤S2具体包括:按分句句子特征输入计算,对每一个文本序列使用字符串匹配的方式匹配输入序列中是否含有常见错误词典中的错误,若包含常见错误,则将错误字段保存为识别结果并进行纠错;若不包含常见错误,则直接进入步骤S3。
4.根据权利要求1所述的基于知识库的特定人员信息纠错方法,其特征在于,步骤S3.2中具体包括:
对人名字符串,提取拼音特征,包括每个字的拼音,并且对平舌翘舌、边音鼻音进行了统一,将翘舌统一为平舌,将鼻音统一为边音;提取人名字符串的五笔特征,包括每个字的五笔编码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州耕云科技有限公司;贵州大学,未经贵州耕云科技有限公司;贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910865592.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体装置的制造方法
- 下一篇:一种实时管控配网停电计划“五个零时差”的方法