[发明专利]基于人工智能的文本分类方法、装置、电子设备及介质在审
申请号: | 202111093400.8 | 申请日: | 2021-09-17 |
公开(公告)号: | CN113792146A | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 孙金辉;马骏;王少军 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/02;G06N3/08 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 钟良;陈实顺 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 文本 分类 方法 装置 电子设备 介质 | ||
1.一种基于人工智能的文本分类方法,其特征在于,所述方法包括:
解析接收到的文本分类请求,构建一个搜索空间,其中,所述搜索空间中包含有多个文本增强策略;
采用预设的搜索策略从所述搜索空间中随机选取一个文本增强策略,作为目标文本增强策略,其中,所述预设的搜索策略中包含有一个控制器;
使用所述目标文本增强策略对文本分类请求中原始文本集中的每个文本进行文本增强,得到第一增强文本集;
将所述原始文本集和所述第一增强文本集输入至预设的神经网络中进行训练,得到第一文本分类模型;
将所述文本分类请求中的验证集输入至所述第一文本分类模型中进行验证,并计算验证通过率;
根据所述验证通过率确定所述文本分类请求对应的目标文本分类模型和最优文本增强策略;
采用所述最优文本增强策略对所述文本分类请求中的待分类文本集进行文本增强,得到第三增强文本集,将所述第三增强文本集和所述待分类文本集输入至所述目标文本分类模型中,得到文本分类结果。
2.如权利要求1所述的基于人工智能的文本分类方法,其特征在于,所述解析接收到的文本分类请求,构建一个搜索空间包括:
解析接收到的文本分类请求,获取四类超参数:类别标签、操作类型、应用类型的概率值及每个文本中应用操作的词的比例;
对所述四类超参数进行组合运算,得到多个文本增强策略,其中,每个所述文本增强策略由所述四类超参数组成;
基于所述多个文本增强策略构建一个搜索空间。
3.如权利要求2所述的基于人工智能的文本分类方法,其特征在于,所述操作类型包括以下一种或者多种方式的组合:同义词替换、随机插入、随机交换、随机删除。
4.如权利要求2所述的基于人工智能的文本分类方法,其特征在于,所述采用预设的搜索策略从所述搜索空间中随机选取一个文本增强策略,作为目标文本增强策略包括:
将所述多个文本增强策略输入至所述预设的搜索策略的控制器中,所述控制器从所述多个文本增强策略中随机选取任意一类超参数中的一个超参数作为所述控制器当前时间步的输入参数,将所述当前时间步的输入参数输入至所述控制器中,输出当前时间步的输出值;
所述控制器从所述多个文本增强策略中随机选取剩余的任意一类超参数中的一个超参数作为下一个时间步的输入参数,将所述下一个时间步的第一输入参数和所述当前时间步的输出值作为下一个时间步的目标输入参数,将所述下一个时间步的目标输入参数输入至所述控制器中,输出下一个时间步的输出值;
循环执行所述四类超参数的选择及输入参数的确定,直至得到每个所述超参数对应的输出参数,并将所述四类超参数对应的四个输出值确定为目标文本增强策略。
5.如权利要求1所述的基于人工智能的文本分类方法,其特征在于,所述使用所述目标文本增强策略对文本分类请求中原始文本集中的每个文本进行文本增强,得到第一增强文本集包括:
识别所述目标文本增强策略中的每个超参数对应的输出值;
基于每个所述超参数对应的输出值对所述原始文本集中的每个文本进行文本增强,得到第一增强文本。
6.如权利要求5所述的基于人工智能的文本分类方法,其特征在于,所述根据所述验证通过率确定所述文本分类请求对应的目标文本分类模型和最优文本增强策略包括:
当所述验证通过率满足所述文本分类请求中的预设收敛条件时,将所述第一文本分类模型确定为目标文本分类模型及将所述目标文本增强策略确定为最优文本增强策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111093400.8/1.html,转载请声明来源钻瓜专利网。