[发明专利]一种文本校验方法、装置、设备及可读存储介质在审
申请号: | 201810564037.5 | 申请日: | 2018-06-04 |
公开(公告)号: | CN108764194A | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 陈翰卿;胡加学;符德祥 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王雨;王宝筠 |
地址: | 230088 安徽*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 校验 文本信息 活动项目 可读存储介质 申请 文本 人工成本 司法案件 自动化 审核 | ||
本申请实施例公开了一种文本校验方法、装置、设备及可读存储介质,本申请获取活动项目对应的待校验文本信息,其中,活动项目可以是司法案件审核等,进一步根据待校验文本信息,确定所需校验要素的要素值,该校验要素与活动项目相对应,最终根据所述校验要素的要素值,确定所述待校验文本信息是否合规。本申请实施例提供的方法,能够实现自动化的确定待校验文本信息是否合规,无需人工查阅文本信息,从而避免了结果受人为的干扰,且降低了人工成本。
技术领域
本申请涉及自然语言处理技术领域,更具体地说,涉及一种文本校验方法、装置、设备及可读存储介质。
背景技术
随着时代的发展,当前已经进入了数据时代,各行各业都会产生大量的文本数据,基于大量的数据可以实现多样化的功能。
以司法案件审判场景为例,一个案件审核过程可能会涉及大量的证据,证据大多数情况下是以文本形式存在。这些证据文本在正式使用之前均需要对其合规性进行校验。合规性校验需要对证据文书的多种信息进行校验,如证据文书是否有盖章,具体文本内容是否包含所需的必要信息点等等。
现有方法均是基于相关司法人员人工查阅证据文书,并基于自身经验给出证据文书是否合规的判定结论。而由于人与人之间判断差异度不同,因此给出的结论很容易受到人为干扰,并且查阅大量证据文书也会占用很大的人力成本。
发明内容
有鉴于此,本申请提供了一种文本校验方法、装置、设备及可读存储介质,用于解决现有通过人工查阅文本给出合规性判定结论的方式,容易受到人为干扰,且占用人力成本的问题。
为了实现上述目的,现提出的方案如下:
一种文本校验方法,包括:
获取活动项目对应的待校验文本信息;
根据所述待校验文本信息,确定所需校验要素的要素值,所述校验要素与所述活动项目相对应;
根据所述校验要素的要素值,确定所述待校验文本信息是否合规。
优选地,所述获取活动项目对应的待检验文本信息,包括:
对活动项目对应的实体待校验文书进行光学字符识别OCR处理,将OCR处理后的结果作为所述活动项目对应的待校验文本信息。
优选地,所述校验要素包括文本类型;所述根据所述待校验文本信息,确定所需校验要素的要素值,包括:
根据所述待校验文本信息及预置的分类模型,确定所述待检验文本信息的文本类型取值;所述分类模型为,预先以标注有文本类型取值的文本信息训练数据训练得到。
优选地,所述根据所述待校验文本信息及预置的分类模型,确定所述待检验文本信息的文本类型取值,包括:
获取所述OCR处理后的结果中,文本区域的位置参数及包含的文本值;
通过分类模型的输入层,输入所述位置参数及所述文本值;
通过分类模型的卷积池化层,对所述位置参数及所述文本值进行卷积池化处理,得到文本特征;
通过分类模型的注意力层,采用自注意力机制对所述文本特征进行处理,得到处理后文本特征;
通过分类模型的全连接层,根据所述处理后文本特征,确定待校验文本信息的文本类型取值。
优选地,所述校验要素包括信息点包含情况;所述根据所述待校验文本信息,确定所需校验要素的要素值,包括:
获取所述OCR处理后的结果中,文本区域包含的文本值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810564037.5/2.html,转载请声明来源钻瓜专利网。