[发明专利]基于人工智能的文本分类方法、装置、电子设备及介质在审
申请号: | 202111093400.8 | 申请日: | 2021-09-17 |
公开(公告)号: | CN113792146A | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 孙金辉;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/02;G06N3/08 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 钟良;陈实顺 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 文本 分类 方法 装置 电子设备 介质 | ||
本发明涉及人工智能技术领域,提供一种基于人工智能的文本分类方法、装置、电子设备及介质,所述方法包括:构建搜索空间;采用预设的搜索策略随机选取目标文本增强策略;使用目标文本增强策略对原始文本集进行文本增强得到第一增强文本集;根据原始文本集和第一增强文本集计算验证通过率;并确定目标文本分类模型和最优文本增强策略;采用最优文本增强策略对待分类文本集进行文本增强得到第三增强文本集,将第三增强文本集和待分类文本集输入至目标文本分类模型中,得到文本分类结果。本发明通过构建搜索空间及采用预设的搜索策略,为每个数据集定制化搜索出最优文本增强策略,提高了文本分类的准确率。
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于人工智能的文本分类方法、装置、电子设备及介质。
背景技术
文本分类任务是自然语言处理中最重要的任务之一。目前,深度学习模型已经广泛应用于文本分类任务中,比如CNN、RNN等模型,通过对大量文本进行标注后进行文本增强。
然而,现有技术标注文本需要消耗大量的人力和时间,同时在进行文本增强时需要人工设置一些超参数,超参数是通过人工经验和大量的对比实验后得到的,在文本增强时无法快速精确的找到最优文本增强策略,导致文本分类结果准确率和效率低下。
因此,有必要提出一种可以精确的进行文本分类的方法。
发明内容
鉴于以上内容,有必要提出一种基于人工智能的文本分类方法、装置、电子设备及介质,通过构建搜索空间及采用预设的搜索策略,为每个数据集定制化搜索出最优文本增强策略,提高了文本分类的准确率。
本发明的第一方面提供一种基于人工智能的文本分类方法,所述方法包括:
解析接收到的文本分类请求,构建一个搜索空间,其中,所述搜索空间中包含有多个文本增强策略;
采用预设的搜索策略从所述搜索空间中随机选取一个文本增强策略,作为目标文本增强策略,其中,所述预设的搜索策略中包含有一个控制器;
使用所述目标文本增强策略对文本分类请求中原始文本集中的每个文本进行文本增强,得到第一增强文本集;
将所述原始文本集和所述第一增强文本集输入至预设的神经网络中进行训练,得到第一文本分类模型;
将所述文本分类请求中的验证集输入至所述第一文本分类模型中进行验证,并计算验证通过率;
根据所述验证通过率确定所述文本分类请求对应的目标文本分类模型和最优文本增强策略;
采用所述最优文本增强策略对所述文本分类请求中的待分类文本集进行文本增强,得到第三增强文本集,将所述第三增强文本集和所述待分类文本集输入至所述目标文本分类模型中,得到文本分类结果。
可选地,所述解析接收到的文本分类请求,构建一个搜索空间包括:
解析接收到的文本分类请求,获取四类超参数:类别标签、操作类型、应用类型的概率值及每个文本中应用操作的词的比例;
对所述四类超参数进行组合运算,得到多个文本增强策略,其中,每个所述文本增强策略由所述四类超参数组成;
基于所述多个文本增强策略构建一个搜索空间。
可选地,所述操作类型包括以下一种或者多种方式的组合:同义词替换、随机插入、随机交换、随机删除。
可选地,所述采用预设的搜索策略从所述搜索空间中随机选取一个文本增强策略,作为目标文本增强策略包括:
将所述多个文本增强策略输入至所述预设的搜索策略的控制器中,所述控制器从所述多个文本增强策略中随机选取任意一类超参数中的一个超参数作为所述控制器当前时间步的输入参数,将所述当前时间步的输入参数输入至所述控制器中,输出当前时间步的输出值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111093400.8/2.html,转载请声明来源钻瓜专利网。