[发明专利]文本分类方法、装置和电子设备在审
| 申请号: | 202011437652.3 | 申请日: | 2020-12-11 |
| 公开(公告)号: | CN112463968A | 公开(公告)日: | 2021-03-09 |
| 发明(设计)人: | 孟欣冉;闫跃;郭松;刘通 | 申请(专利权)人: | 中国工商银行股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/126 |
| 代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 李春伟 |
| 地址: | 100140 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 分类 方法 装置 电子设备 | ||
本公开提供了一种文本分类方法、装置和电子设备,可用于大数据领域或其他领域,该文本分类方法包括:获取输入文本,输入文本是针对指定场景的,指定场景具有对应的文本结构信息;响应于输入文本,获取与输入文本对应的结构化文本信息,结构化文本信息包括输入文本的关键信息和与文本结构信息对应的文本信息;以及利用文本分类模型处理结构化文本信息,确定输入文本的类别。
技术领域
本公开涉及人工智能技术领域,更具体地,涉及一种文本分类方法、装置和电子设备。
背景技术
随着信息技术的不断发展,人工智能技术越来越普及,智能分类作为人工智能技术的重要组成也越来越受到重视。
在应用智能分类的场景中,需要对文本信息进行分类以便基于分类结果进行业务处理。例如,在记账场景中,需要基于文本信息确定交易的类型,以便将交易金额计入对应的交易类型中,提升用户确定不同的交易类型各自的金额占比的便捷度。记账所依赖的文本信息来自各家银行机构以及第三方交易平台等,行业内并没有统一标准及规范术语,仅通过简单的关键字匹配等方式实现账目分类,命中率较低。为了提升命中率,相关技术可以采用深度学习技术从文本信息中学习到高层属性类别或特征,以发现数据的特征分布表示,提高文本分类的命中率。
在实现本公开构思的过程中,申请人发现相关技术至少存在如下问题:基于深度学习技术的文本分类模型,其构建及调参过程较复杂,模型训练异常消耗资源,并且需要海量训练数据以提升其针对多种场景的命中率。
发明内容
有鉴于此,本公开提供了一种有助于改善模型训练异常消耗资源,并且需要海量训练数据的问题的文本分类方法、装置和电子设备。
本公开的一个方面提供了一种文本分类方法,该方法包括:获取输入文本,输入文本是针对指定场景的,指定场景具有对应的文本结构信息;响应于输入文本,获取与输入文本对应的结构化文本信息,结构化文本信息包括输入文本的关键信息和与文本结构信息对应的文本信息;以及利用文本分类模型处理结构化文本信息,确定输入文本的类别。
本公开的一个方面提供了一种文本分类装置,包括:输入文本获取模块、输入文本响应模块和分类模块。其中,输入文本获取模块用于获取输入文本,输入文本是针对指定场景的,指定场景具有对应的文本结构信息;输入文本响应模块用于响应于输入文本,获取与输入文本对应的结构化文本信息,结构化文本信息包括输入文本的关键信息和与文本结构信息对应的文本信息;以及分类模块用于利用文本分类模型处理结构化文本信息,确定输入文本的类别。
本公开的另一方面提供了一种电子设备,包括一个或多个处理器以及存储装置,其中,存储装置用于存储可执行指令,可执行指令在被处理器执行时,实现如上所述的方法。
本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,指令在被执行时用于实现如上所述的方法。
本公开的另一方面提供了一种计算机程序,计算机程序包括计算机可执行指令,指令在被执行时用于实现如上所述的方法。
本公开实施例提供的文本分类方法、装置和电子设备,获取了输入文本的关键信息和与针对指定场景的文本结构信息对应的文本信息,由于文本结构信息对应的文本信息可以表征针对指定场景的文本信息的数据特点和共性特征,可以较好地表达针对指定场景的输入文本的语义信息。基于该文本结构信息对应的文本信息结合关键信息进行文本分类时,可以在不降低分类命中率的基础上,有效降低模型训练消耗的计算资源、时间资源等。此外,由于针对指定场景的训练数据的质量较高,有助于降低所需训练数据的数据量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011437652.3/2.html,转载请声明来源钻瓜专利网。





