[发明专利]文本分类方法、装置和电子设备在审

专利信息
申请号: 202011437652.3 申请日: 2020-12-11
公开(公告)号: CN112463968A 公开(公告)日: 2021-03-09
发明(设计)人: 孟欣冉;闫跃;郭松;刘通 申请(专利权)人: 中国工商银行股份有限公司
主分类号: G06F16/35 分类号: G06F16/35;G06F40/126
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 李春伟
地址: 100140 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 分类 方法 装置 电子设备
【权利要求书】:

1.一种文本分类方法,包括:

获取输入文本,所述输入文本是针对指定场景的,所述指定场景具有对应的文本结构信息;

响应于所述输入文本,获取与所述输入文本对应的结构化文本信息,所述结构化文本信息包括所述输入文本的关键信息和与所述文本结构信息对应的文本信息;以及

利用文本分类模型处理所述结构化文本信息,确定所述输入文本的类别。

2.根据权利要求1所述的方法,其中,所述输入文本包括业务摘要文本,所述文本结构信息包括至少一个属性信息;

所述结构化文本信息通过如下方式确定:

基于正则表达式匹配的方式从所述输入文本中获取与所述属性信息相匹配的文本属性信息以及获取所述输入文本的关键信息;以及

拼接所述文本属性信息和所述输入文本的关键信息,获得所述结构化文本信息。

3.根据权利要求2所述的方法,其中,所述指定场景是记账场景;

所述文本结构信息包括:账号关联信息、交易类型、交易日期、交易金额、交易渠道中至少一种;

所述输入文本的关键信息包括:所述业务摘要文本的标题、主题、副标题、业务标签或者备注信息中至少一种;以及

所述方法还包括:在所述利用文本分类模型处理所述结构化文本信息以确定所述输入文本的类别之后,

基于与所述文本结构信息对应的文本信息中至少部分信息和所述输入文本的类别更新记账信息。

4.根据权利要求1所述的方法,其中,所述文本分类模型通过如下方式进行训练;

基于针对所述指定场景的第一训练数据集合对所述文本分类模型进行第一次训练,得到模型参数集合;以及

基于针对所述指定场景的第二训练数据集合对所述文本分类模型进行第二次训练,以微调所述模型参数集合。

5.根据权利要求4所述的方法,其中,所述基于针对所述指定场景的第一训练数据集合对所述文本分类模型进行第一次训练,得到模型参数集合包括:

重复执行如下操作直至达到预设训练轮数,其中,针对每一个训练轮,

从所述第一训练数据集合中获取指定个数的训练数据;以及

将所述指定个数的训练数据以及所述指定个数的训练数据各自的标签信息输入所述文本分类模型,通过随机梯度下降算法更新所述文本分类模型的模型参数。

6.根据权利要求4所述的方法,其中,所述基于针对所述指定场景的第二训练数据集合对所述文本分类模型进行第二次训练,以微调所述模型参数集合包括:

基于至少两个测试数据集合分别对所述文本分类模型进行调试,以获取至少两个微调后的模型参数集合;以及

从所述至少两个微调后的模型参数集合中选取最优的微调后的模型参数集合,其中,与所述最优的微调后的模型参数集合对应的文本分类模型的测试准确度最高。

7.根据权利要求4所述的方法,其中:

所述文本结构信息包括至少一个属性信息,所述文本分类模型包括预训练模型;

所述第一训练数据集合包括具有标签信息的历史业务数据集合以及扩展业务数据集合;

所述扩展业务数据集合通过如下方式确定:

随机数生成与所述至少一个属性信息对应的随机文本属性信息;以及

基于所述随机文本属性信息以及所述历史业务数据集合中历史业务数据的关键信息和标签信息生成扩展业务数据,以获取所述扩展业务数据集合。

8.根据权利要求1至7任一项所述的方法,其中,所述文本结构信息是基于用户输入信息确定的,或者所述文本结构信息是基于预设规则从针对所述指定场景的多个输入文本中确定的。

9.根据权利要求1至7任一项所述的方法,其中,所述利用文本分类模型处理所述结构化文本信息,确定所述输入文本的类别包括:

获取所述结构化文本信息中各词的词向量,以确定所述结构化文本信息的指定维度向量;以及

基于预训练模型处理所述指定维度向量以确定所述结构化文本信息的类型。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011437652.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top