[发明专利]文本检测方法、装置、计算机设备和存储介质在审
| 申请号: | 202111452313.7 | 申请日: | 2021-11-30 |
| 公开(公告)号: | CN114297337A | 公开(公告)日: | 2022-04-08 |
| 发明(设计)人: | 张小成;张路路;涂闪 | 申请(专利权)人: | 太平金融科技服务(上海)有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/258;G06F40/289;G06F40/30 |
| 代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 左帮胜 |
| 地址: | 201201 *** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 检测 方法 装置 计算机 设备 存储 介质 | ||
1.一种文本检测方法,其特征在于,所述方法包括:
获取待检测文本;
检测所述待检测文本的物理结构和/或逻辑结构;
根据所述物理结构和/或逻辑结构对所述待检测文本进行关键词提取。
2.根据权利要求1所述的方法,其特征在于,所述检测所述待检测文本的物理结构,包括:
对所述待检测文本进行处理以得到所述待检测文本中每一分类的物理对象;
对所述物理对象进行预处理;
按照所述待检测文本的阅读顺序对预处理后的所述物理对象进行排序,得到所述待检测文本的物理结构。
3.根据权利要求2所述的方法,其特征在于,所述对所述物理对象进行预处理包括以下至少一种:
合并被拆分的物理对象;
删除冗余的物理对象。
4.根据权利要求2所述的方法,其特征在于,所述逻辑结构的检测方法包括:
获取待检测文本的物理结构;
根据所述物理结构得到所述待检测文本的标题以及标题关系;
根据所述标题以及标题关系构建逻辑框架;
将所述物理结构中除标题以外的物理对象补充进所述逻辑框架中,得到所述待检测文本的逻辑结构。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述根据所述物理结构和/或逻辑结构对所述待检测文本进行关键词提取,包括:
根据所述物理结构和/或逻辑结构通过至少一种算法对所述待检测文本进行关键词提取;
对各个所述算法提取的待处理关键词进行融合得到初始关键词;
对所述初始关键词进行后处理得到目标关键词。
6.根据权利要求5所述的方法,其特征在于,所述根据所述物理结构和/或逻辑结构通过至少一种算法对所述待检测文本进行关键词提取,包括:
根据所述物理结构和/或逻辑结构对所述待检测文本进行特征提取;
将所提取的特征分别输入至少一种算法中以对所述待检测文本进行关键词提取。
7.根据权利要求6所述的方法,其特征在于,所述根据所述物理结构和/或逻辑结构对所述待检测文本进行特征提取,包括:
对所述待检测文本中的物理对象进行分词提取;
计算所述分词在每一类所述物理对象中的频率;
根据所述分词在每一类所述物理对象中的频率计算得到逆向文件频率;
按照所述逆向文件频率对所提取的分词进行排序,并选取排序靠前的预设数量的分词生成特征向量。
8.根据权利要求7所述的方法,其特征在于,所述根据所述分词在每一类所述物理对象中的频率计算得到逆向文件频率,包括:
根据以下公式计算得到每一分词对应的逆向文件频率:
其中,P(mk)为所述分词m在当前的所述物理对象的类别k的频率,P(mk)′为所述分词m在其他所述物理对象的类别k的频率。
9.根据权利要求6所述的方法,其特征在于,所述将所提取的特征分别输入至少一种算法中以对所述待检测文本进行关键词提取,包括:
获取所提取的特征的句子标识、位置标识以及字或词向量;
根据所述句子标识、位置标识以及字或词向量确定每一特征中的分词对应的标签;
通过概率图模型中的约束条件对所述分词进行滤波处理;
根据滤波处理后的分词的标签得到关键词。
10.根据权利要求1所述的方法,其特征在于,所述获取待检测文本,包括:
通过多层存储模式的节点获取待检测文本,且当当前执行的节点故障,则从下一层的存储节点中获取对应的节点进行处理,且每一层对应的节点的数据实时备份。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于太平金融科技服务(上海)有限公司,未经太平金融科技服务(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111452313.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种葡萄种植用挖土器及其使用方法
- 下一篇:基于人工智能的情感分析的方法





