[发明专利]文本分类方法、装置及相关设备在审
申请号: | 202110921213.8 | 申请日: | 2021-08-11 |
公开(公告)号: | CN113609295A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 蒋雪涵;孙行智 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G16H50/70;G06N3/04;G06N3/08 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 杨毅玲;陈海云 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 装置 相关 设备 | ||
1.一种文本分类方法,其特征在于,所述文本分类方法包括:
接收并向量化处理输入文本,得到初始文本向量;
降维处理所述初始文本向量,得到预设维度的目标文本向量;
获取目标维度,并根据所述目标维度将所述目标文本向量拆分为测试组与对照组;
计算所述测试组与所述对照组在所述目标维度之外的剩余维度上的目标差值;
确定所述目标差值最小时所述目标文本向量的目标权重;
根据所述目标权重调整所述目标文本向量,得到最终文本向量;
利用所述最终文本向量对初始文本分类模型进行训练,得到目标文本分类模型;
调用所述目标文本分类模型处理预先输入的待处理文本,得到所述待处理文本所属的类别。
2.根据权利要求1所述的文本分类方法,其特征在于,所述接收并向量化处理输入文本,得到初始文本向量包括:
分词处理所述输入文本,得到所述输入文本中的若干分词;
根据预设的停用词表去除所述分词中存在的停用词,得到目标关键语句;
调用预设语义模型向量化处理所述目标关键语句,得到所述初始文本向量。
3.根据权利要求1所述的文本分类方法,其特征在于,所述降维处理所述初始文本向量,得到预设维度的目标文本向量包括:
获取初始降维模型,并调用所述初始降维模型对所述初始文本向量进行降维处理,得到降维文本向量;
根据所述降维文本向量对所述初始文本向量进行重构,得到重构文本向量;
计算所述重构文本向量与所述初始文本向量的差值;
确定所述差值最小时对应的所述初始降维模型的模型参数,并根据所述模型参数更新所述初始降维模型,得到目标降维模型;
调用所述目标降维模型处理所述初始文本向量,得到预设维度的目标文本向量。
4.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述目标维度将所述目标文本向量拆分为测试组与对照组包括:
二值化处理所述目标文本向量,得到所述目标文本向量中每列的平均值;
检测所述平均值是否高于预设均值阈值;
当检测结果为所述平均值高于所述预设均值阈值时,确定所述平均值对应的第一样本作为测试组;
当检测结果为所述平均值低于所述预设均值阈值时,确定所述平均值对应的第二样本作为对照组。
5.根据权利要求1所述的文本分类方法,其特征在于,所述计算所述测试组与所述对照组在所述目标维度之外的剩余维度上的目标差值包括:
分别计算所述测试组在所述剩余维度的各个维度上的第一平均值以及所述对照组在所述剩余维度的各个维度上的第二平均值;
获取所述第一平均值与所述第二平均值的差值;
获取所述剩余维度的各个维度上的每一所述差值的和值作为目标差值。
6.根据权利要求1所述的文本分类方法,其特征在于,所述根据所述目标权重调整所述目标文本向量,得到最终文本向量包括:
获取所述目标文本向量中的每一样本以及所述样本对应的目标权重;
加权处理所述样本与所述目标权重,得到最终文本向量。
7.根据权利要求1所述的文本分类方法,其特征在于,所述利用所述最终文本向量对初始文本分类模型进行训练,得到目标文本分类模型包括:
将所述最终文本向量拆分为训练集与测试集;
输入所述训练集至预设神经网络模型进行训练,得到初始文本分类模型;
输入所述测试集至所述初始分类模型进行测试,得到测试准确率;
检测所述测试准确率是否超过预设准确率阈值;
当检测结果为所述测试准确率超过预设准确率阈值时,确定所述目标分类模型训练完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110921213.8/1.html,转载请声明来源钻瓜专利网。