[发明专利]用于电子文档合规性判别的智能方法在审
申请号: | 201910882499.6 | 申请日: | 2019-09-18 |
公开(公告)号: | CN110597760A | 公开(公告)日: | 2019-12-20 |
发明(设计)人: | 李华康;王磊;徐梦婷;方浪;孔令军 | 申请(专利权)人: | 苏州派维斯信息科技有限公司 |
主分类号: | G06F16/11 | 分类号: | G06F16/11;G06F17/21;G06F17/27 |
代理公司: | 32257 苏州市中南伟业知识产权代理事务所(普通合伙) | 代理人: | 殷海霞 |
地址: | 215000 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档语义 电子文档 合规性 自然语言处理技术 逻辑分析模块 语义角色标注 结构化文档 语义 格式要求 关系信息 领域要求 逻辑信息 判断步骤 文本数据 文本信息 文档信息 信息判断 信息缺失 依存关系 语义逻辑 智能 无噪声 文档 切割 采集 转化 分析 | ||
1.一种用于电子文档合规性判别的智能方法,其特征在于,包括:
步骤S100:采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据;
步骤S200:用于判断步骤S100中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失;
步骤S300:分析文档语义逻辑信息,包括文档语义关系信息、语义依存关系和语义角色标注;
步骤S400:通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。
2.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤100具体步骤如下:
步骤110:获取电子文档;
步骤120:对电子文档中的信息进行解析和抽取;
步骤130:将抽取的文本信息存储为结构化的信息,存储为结构化的json文件,或者使用python中的pandas库存储为csv文件。
3.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤200具体步骤如下:
步骤210:读取步骤130获得的结构化文档数据;
步骤220:文档格式信息判断,对结构化的文档数据进行审查,如果数据中存在空值,则进入步骤240,若数据中不存在空值,则进入步骤230;
步骤230、格式审查通过,保留文档数据;
步骤240、输出报错信息。
4.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤300具体步骤如下:
步骤310:读取文档数据;
步骤320:针对句子中所包含的信息,使用句号和分号对句子进行划分,来表示一整段话的开始和结束,并使用结巴分词来对句子进行分词;
步骤330:针对步骤320分词后的句子,使用自然语言处理技术进行相关领域实体词的抽取,针对不同的领域选择基于领域词典的实体抽取方法或者训练领域相关词向量,通过深度学习的方法来抽取实体;
步骤340:基于步骤330抽取出的实体词,利用自然语言处理技术按照实体-关系-实体的三元组形式进行实体间关系的抽取,使用基于SVM的方法、基于Bi-LSTM-attention的方法抽取关系,或者使用预训练好的模型如斯坦福的Stanford NLP模型或者哈工大的LTP模型进行关系抽取。
步骤350:将步骤330抽取的实体词和步骤340抽取的关系三元组存储为结构化的数据。
5.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤400具体步骤如下:
步骤410:读取文档数据;
步骤420:判断文档中相关实体是否缺失,即相关实体是否为空值,若缺失实体则转入步骤450,如果不缺少实体,则转入步骤430,开始进行实体关系审查;
步骤430:判断关系三元组是否缺失,是否存在逻辑错误、是否符合相关领域的要求,若存在问题,则转入步骤450,若不存在问题,则转入步骤440;
步骤440、文档合规性判别通过;
步骤450,输出报错信息。
6.如权利要求1所述的用于电子文档合规性判别的智能方法,其特征在于,步骤120根据相关领域的标准文档采用关键词匹配、正则表达式匹配等方法进行文档信息的抽取。
7.一种用于电子文档合规性判别的智能系统,其特征在于,包括;
文档信息采集分析模块,此模块用于采集相关文档的信息并通过自然语言处理技术实现知识粒度的切割,将文本信息转化为无噪声的文本数据;
文档格式信息判断模块,此模块用于判断文档信息采集分析模块中获得的结构化文档信息是否符合相关领域的格式要求,文档信息是否缺失;
文档语义逻辑信息分析模块,用于分析文档语义逻辑信息,包括文档语义关系信息、语义依存关系和语义角色标注;以及
文档语义逻辑信息判断模块,通过文档语义逻辑分析模块得到的信息判断文档语义逻辑上是否存在谬误,是否符合相关领域要求。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州派维斯信息科技有限公司,未经苏州派维斯信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910882499.6/1.html,转载请声明来源钻瓜专利网。