[发明专利]文本数据处理方法、装置、电子设备及存储介质有效
申请号: | 202110376739.2 | 申请日: | 2021-04-07 |
公开(公告)号: | CN113111181B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 吴雨霏 | 申请(专利权)人: | 中信百信银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/205 |
代理公司: | 北京植德律师事务所 11780 | 代理人: | 唐华东 |
地址: | 100020 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 数据处理 方法 装置 电子设备 存储 介质 | ||
本公开提供一种文本数据处理方法、装置、电子设备及存储介质,通过基于与待处理文本数据类型相对应的目标文本结构将所述待处理文本数据转换为结构化文本数据;对所述结构化文本数据进行增广;用增广后的所述结构化文本数据中每个句子数据对应的特征向量生成特征向量数据集合;基于对应所述待处理文本数据类型的预设分类器对所述特征向量数据集合进行分类处理,得到处理结果;实现了文本数据的自动化分析处理,提高处理效率,降低人力成本。
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本数据处理方法、装置、电子设备及存储介质。
背景技术
金融是一个被强监管的领域,合规审计是审计机构和审计人员依据国家法律、法规和财经制度对被审计单位的生产经营管理活动及其有关资料是否合规所进行的一种经济监督活动,是整个金融行业管理业务的重要手段。
目前市场上做智能审计合规的手段多为自动化流程管控,这种手段的前提是监管条款已经提取之后,将该监管条款抽象成技术手段,进行技术的流程管控。但是这并不能解决如何帮助减少监管条款和案件分析的人工成本,目前这一块还是纯人工的手段在进行,效率低,影响金融行业的数字化转型。
发明内容
本公开的实施例提出了文本数据处理方法、装置、电子设备和存储介质。
第一方面,本公开的实施例提供了一种文本数据处理方法,该方法包括:基于与待处理文本数据类型相对应的目标文本结构将所述待处理文本数据转换为结构化文本数据;对所述结构化文本数据进行增广;用增广后的所述结构化文本数据中每个句子数据对应的特征向量生成特征向量数据集合;基于对应所述待处理文本数据类型的预设分类器对所述特征向量数据集合进行分类处理,得到处理结果。
在一些可选的实施方式中,所述对所述结构化文本数据进行增广前,上述方法还包括:
基于所述结构化文本数据进行主干分析,提取主干文本数据;
将所述主干文本数据中每个句子映射到对应的特征向量生成主干特征向量集合;
基于所述主干特征向量集合进行聚类,得到至少一个主干特征向量子集合;
保留表征所述至少一个主干特征向量子集合的所述结构化文本数据。
在一些可选的实施方式中,上述方法还包括:
接收到所述待处理文本数据,根据所述待处理文本数据类型获取与所述数据类型相对应的所述目标文本结构。
在一些可选的实施方式中,上述方法还包括:
基于所述处理结果对所述待处理文本数据进行标注。
在一些可选的实施方式中,所述基于所述结构化文本数据进行主干分析,提取主干文本数据,包括:
删除所述目标文本结构中预设无用章节对应的文本数据内容;
提取剩余所述结构化文本数据中每个句子的主干内容,得到所述主干文本数据。
第二方面,本公开的实施例提供了一种文本数据处理装置,该装置包括:结构化单元,被配置成基于与待处理文本数据类型相对应的目标文本结构将所述待处理文本数据转换为结构化文本数据;增广单元,被配置成对所述结构化文本数据进行增广;向量生成单元,被配置成用增广后的所述结构化文本数据中每个句子数据对应的特征向量生成特征向量数据集合;处理结果提取单元,基于对应所述待处理文本数据类型的预设分类器对所述特征向量数据集合进行分类处理,得到处理结果。
在一些可选的实施方式中,上述装置还包括:
主干提取单元,被配置成基于所述结构化文本数据进行主干分析,提取主干文本数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中信百信银行股份有限公司,未经中信百信银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110376739.2/2.html,转载请声明来源钻瓜专利网。