[发明专利]文本数据处理方法、装置、电子设备及存储介质有效
申请号: | 202110376739.2 | 申请日: | 2021-04-07 |
公开(公告)号: | CN113111181B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 吴雨霏 | 申请(专利权)人: | 中信百信银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/205 |
代理公司: | 北京植德律师事务所 11780 | 代理人: | 唐华东 |
地址: | 100020 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据处理 方法 装置 电子设备 存储 介质 | ||
1.一种文本数据处理方法,包括:
基于与待处理文本数据类型相对应的目标文本结构将所述待处理文本数据转换为结构化文本数据;
对所述结构化文本数据进行增广;
用增广后的所述结构化文本数据中每个句子数据对应的特征向量生成特征向量数据集合;
基于对应所述待处理文本数据类型的预设分类器对所述特征向量数据集合进行分类处理,得到处理结果。
2.根据权利要求1所述的方法,所述对所述结构化文本数据进行增广前,还包括:
基于所述结构化文本数据进行主干分析,提取主干文本数据;
将所述主干文本数据中每个句子映射到对应的特征向量生成主干特征向量集合;
基于所述主干特征向量集合进行聚类,得到至少一个主干特征向量子集合;
保留表征所述至少一个主干特征向量子集合的所述结构化文本数据。
3.根据权利要求1或2所述的方法,还包括:
接收到所述待处理文本数据,根据所述待处理文本数据类型获取与所述数据类型相对应的所述目标文本结构。
4.根据权利要求1或2所述的方法,还包括:
基于所述处理结果对所述待处理文本数据进行标注。
5.根据权利要求2所述的方法,所述基于所述结构化文本数据进行主干分析,提取主干文本数据,包括:
删除所述目标文本结构中预设无用章节对应的文本数据内容;
提取剩余所述结构化文本数据中每个句子的主干内容,得到所述主干文本数据。
6.一种文本数据处理装置,包括:
结构化单元,被配置成基于与待处理文本数据类型相对应的目标文本结构将所述待处理文本数据转换为结构化文本数据;
增广单元,被配置成对所述结构化文本数据进行增广;
向量生成单元,被配置成用增广后的所述结构化文本数据中每个句子数据对应的特征向量生成特征向量数据集合;
处理结果提取单元,基于对应所述待处理文本数据类型的预设分类器对所述特征向量数据集合进行分类处理,得到处理结果。
7.根据权利要求6所述的装置,还包括:
主干提取单元,被配置成基于所述结构化文本数据进行主干分析,提取主干文本数据;
所述向量生成单元,被配置成将所述主干文本数据中每个句子映射到对应的特征向量生成主干特征向量集合;
聚类单元,被配置成基于所述主干特征向量集合进行聚类,得到至少一个主干特征向量子集合;
所述结构化单元,被配置成保留表征所述至少一个主干特征向量子集合的所述结构化文本数据。
8.根据权利要求6或7所述的装置,还包括:
结构获取单元,被配置成接收到所述待处理文本数据,根据所述待处理文本数据类型获取与所述数据类型相对应的所述目标文本结构。
9.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被一个或多个处理器执行时实现如权利要求1-5中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中信百信银行股份有限公司,未经中信百信银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110376739.2/1.html,转载请声明来源钻瓜专利网。