[发明专利]一种基于知识库的特定人员信息纠错方法有效
申请号: | 201910865592.6 | 申请日: | 2019-09-12 |
公开(公告)号: | CN110941720B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 黄瑞章 | 申请(专利权)人: | 贵州耕云科技有限公司;贵州大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30;G06F18/22 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 于国强 |
地址: | 550080 贵州省贵阳市贵阳国家高新技*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识库 特定 人员 信息 纠错 方法 | ||
本发明公开了一种基于知识库的特定人员信息纠错方法,涉及计算机文字识别技术领域。本方法利用Double‑LSTM边界模型识别提取待检测文本中特定人员人名以及其他信息,用提取到的文本中信息与特定人员知识库中的特定人员信息进行对比计算相似度,判断当前文本中人名及其相关信息是否正确,建立正确人名信息库,同时筛选出疑似错误人名信息,优先使用本文中正确人名信息库其次使用特定人员知识库中信息对疑似错误信息进行相似度计算,以及其他辅助信息匹配,对疑似错误信息进行纠错。本方法解决了在句子中含有错误字符对文本语义的改变而导致人名识别困难的技术难点,同时大大提升了人名及称谓信息识别的效果,并实现了对文本中特定人员名及其相关信息的端对端直接纠错。
技术领域
本发明涉及计算机文字识别技术领域,尤其涉及一种基于知识库的特定人员信息纠错方法。
背景技术
目前大多数纠错技术仅限于对目标字段进行常见词匹配编辑距离计算,并在小于编辑距离阀值的候选词中选择与目标字段编辑距离最小的词进行纠错。然而,在实际文本应用场景中,只单纯进行编辑距离对比并不能准确确定目标字段是否有误,往往上下文中的信息更能为发现错误与纠错提供帮助,但现有技术很少用到了提取文本中上下文信息并用于纠错中。同样,在现有技术中用来与目标字段进行匹配纠错的备选库中,往往只有目标候选词,而缺少相关辅助信息,这样使判断及纠错准确率大大降低。
现有的人名实体提取方法中多用序列标注模型,尤其是近期有很多神经网络技术也被多方面的运用到了序列标注识别模型中,在一些应用场景中也取得不错的效果。而在含有错误信息的句子中,序列标注实现实体名称提取尤其是人名提取的效果将大打折扣。因为序列标注模型在遇到错误字的时候往往不能判断当前错字是否为一个新词或者是其他词中的一个字。
发明内容
本发明的目的在于提供一种基于知识库的特定人员信息纠错方法,从而解决现有技术中存在的前述问题。
为了实现上述目的,本发明采用的技术方案如下:
一种基于知识库的特定人员信息纠错方法,包括如下步骤:
S1,对目标文本进行预处理,同时建立常见错误词典;
S2,使用常见错误词典对目标文本进行匹配纠错;
S3,对预处理之后的文本进行识别,获取人名或/和称谓信息;
S4,对识别获取到的人名与知识库中人名进行对比,并计算相似度。
优选地,步骤S1中预处理包括分句预处理,将文本中句子按文中分句符进行分句。
优选地,步骤S2具体包括:按分句句子特征输入计算,对每一个文本序列使用字符串匹配的方式匹配输入序列中是否含有常见错误词典中的错误,若包含常见错误,则将错误字段保存为识别结果并进行纠错;若不包含常见错误,则直接进入步骤S3。
优选地,步骤S3中文本识别的方式:
S3.1,使用HanLP工具辅助Double-LSTM边界识别模型对句子中的人名及称谓等信息进行识别;
S3.2,提取人名字符串的拼音特征、五笔特征。
优选地,步骤S31中具体包括:
1)遍历待识别句子中的每个字,以当前字为中心将句子分为左子句和右子句;
2)将所述左子句和所述右子句分别输入两个不同的LSTM进行编码;
3)将编码后的向量级联输入全链接层进行分类,判断当前字是否为实体开始边界;
4)取以边界为开头的2-gram和3-gram作为候选人名,并使用HanLP工具对句子进行分词,按词性nr识别人名;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州耕云科技有限公司;贵州大学,未经贵州耕云科技有限公司;贵州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910865592.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体装置的制造方法
- 下一篇:一种实时管控配网停电计划“五个零时差”的方法