[发明专利]一种基于自然语言处理的文档校验方法有效
申请号: | 202210918737.6 | 申请日: | 2022-08-02 |
公开(公告)号: | CN114970554B | 公开(公告)日: | 2022-10-21 |
发明(设计)人: | 黄晓明;赵欣;董元龙;林明晖;李杨;丁靖;高晓辉;方昕;余乘龙;陈凌;岳衡 | 申请(专利权)人: | 国网浙江省电力有限公司宁波供电公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/205;G06F40/169;G06N3/04;G06V10/764;G06V10/82;G06V30/10;G06V30/19 |
代理公司: | 宁波市鄞州盛飞专利代理事务所(特殊普通合伙) 33243 | 代理人: | 龙洋 |
地址: | 315000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自然语言 处理 文档 校验 方法 | ||
1.一种基于自然语言处理的文档校验方法,其特征在于,包括步骤:
S1:获取目标文档的图像扫描信息并提取出其中多个文字段信息;
S2:通过查找预设字向量表的方式对各文字段信息进行拆分以获得位置信息、初步预测下的字向量信息以及当前文字段信息整体的文本信息;
S3:获取当前文本信息与该文本信息之前或之后、相邻或非相邻的任意文本信息拼接下的前后文本信息,并通过比较前后文本信息中字向量信息以及相应位置信息的拟合度获取前后文本信息的相似度信息;
S4:根据相似度信息对当前文字段信息中初步预测失误的文字进行修正,并获取修正后目标文档的语句信息;
S5:通过对语句信息进行语义标注,并通过识别语义标注进行目标文档内容获取;
S6:通过自然语言处理对文档内容进行分析,并根据分析结果提取出其中含有预设违规语料的文档内容并标注。
2.如权利要求1所述的一种基于自然语言处理的文档校验方法,其特征在于,所述S1步骤具体包括步骤:
S11:获取目标文档的图像扫描信息,并对图像扫描信息进行信息分类划分;
S12:根据分类划分出的文本图块进行文字段信息识别。
3.如权利要求2所述的一种基于自然语言处理的文档校验方法,其特征在于,所述图像扫描信息的信息分类划分通过卷积循环神经网络实现,所述卷积循环神经网络中包括卷积层、全连接层和池化层,卷积层均采用预设大小的卷积核,其中:
通过卷积层对图像扫描信息进行逐层特征提取,并通过全连接层进行各层特征融合,根据融合后的特征,通过池化层获得信息分类划分结果。
4.如权利要求1所述的一种基于自然语言处理的文档校验方法,其特征在于,所述S3步骤中,当前文本信息任意组合下的前后文本信息,指拼接当前文本信息以及与当前文本信息相邻或非相邻的前后任意文本信息,并获得拼接后组成的前后文本信息。
5.如权利要求1所述的一种基于自然语言处理的文档校验方法,其特征在于,所述S3步骤中,通过将字向量信息根据相应位置信息映射到预设维度空间中,根据前后文本信息在预设维度区间中字向量信息的拟合度获得相似度信息。
6.如权利要求1所述的一种基于自然语言处理的文档校验方法,其特征在于,所述S5步骤中,对语句信息进行语义标注具体步骤为:
通过分析语句信息与目标语料库中数据的语义相似度进行语义标注。
7.如权利要求6所述的一种基于自然语言处理的文档校验方法,其特征在于,所述语义相似度是通过长短期神经网络分别获取语句信息与目标语料库中数据的特征向量,并根据特征向量之间的相关度计算获取,具体计算公式为:
式中r为获取语句信息与目标语料库中数据的相关度,n为特征向量中样本的数量,i为常数,X为语句信息的特征向量,Xi为第i个语句信息的特征向量,Y为目标语料库中数据的特征向量,Yi为第i个目标语料库中数据的特征向量,为X的标准分数,为X的样本平均值,为X的样本标准差,为Y的标准分数,为Y的样本平均值,为Y的样本标准差。
8.如权利要求6所述的一种基于自然语言处理的文档校验方法,其特征在于,所述S1步骤之前还包括步骤:
S0:根据目标文档的技术分类选用相应分类的目标语料库,并根据校验要求加入预设违规语料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网浙江省电力有限公司宁波供电公司,未经国网浙江省电力有限公司宁波供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210918737.6/1.html,转载请声明来源钻瓜专利网。