[发明专利]文本分类方法、装置、存储介质以及终端在审
| 申请号: | 202310218942.6 | 申请日: | 2023-03-03 |
| 公开(公告)号: | CN116383378A | 公开(公告)日: | 2023-07-04 |
| 发明(设计)人: | 谢春梅;吴腾飞;王洪彬 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/279;G06F40/216;G06N3/0464 |
| 代理公司: | 北京恒博知识产权代理有限公司 11528 | 代理人: | 范胜祥 |
| 地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 分类 方法 装置 存储 介质 以及 终端 | ||
1.一种文本分类方法,所述方法包括:
提取目标文本中的目标文字,基于标准图结构确定所述目标文本中的目标文字对应的目标图结构,其中,所述标准图结构包括样本文本中的样本文字对应的样本字节点特征以及各样本字节点特征之间的关系;
对所述目标图结构进行神经网络计算,得到所述目标图结构对应的计算结果,基于所述计算结果确定所述目标文本的类别。
2.根据权利要求1所述的方法,所述样本字节点特征为基于预设语言表征模型对所述样本文字处理后得到的字节点特征。
3.根据权利要求1所述的方法,所述各样本字节点特征之间的关系为基于所述样本文本计算出所述样本字节点特征之间的邻接矩阵之后,根据所述邻接矩阵确定出的各样本字节点特征之间的关系。
4.根据权利要求3所述的方法,所述邻接矩阵为通过各样本文字在所述样本文本中的相对文本距离计算得到,其中所述邻接矩阵中的值越大,则其对应的两个样本字节点特征之间的关系越密切。
5.根据权利要求1所述的方法,所述基于标准图结构确定所述目标文本中的目标文字对应的目标图结构,包括:
获取所述目标文字对应的目标字节点特征;
根据各目标字节点特征在所述标准图结构中对应的各目标样本字节点特征以及各目标样本字节点特征之间的关系,确定所述目标文本中的目标文字对应的目标图结构。
6.根据权利要求5所述的方法,所述获取所述目标文字对应的目标字节点特征,包括:
基于预设语言表征模型对所述目标文字处理,得到所述目标文字对应的目标字节点特征;或者
基于所述标准图结构确定所述目标文字对应的目标样本文字,根据所述目标样本文字对应的目标样本字节点特征,确定所述目标文字对应的目标字节点特征。
7.根据权利要求1所述的方法,所述对所述目标图结构进行神经网络计算,得到所述目标图结构对应的计算结果,包括:
对所述目标图结构进行图卷积,以抽取出所述目标图结构中各目标字节点特征的目标隐藏特征;
池化所有目标隐藏特征,确定所述目标文本对应的分类特征;
基于所述分类特征计算所述目标文本为预设文本类别的概率。
8.根据权利要求7所述的方法,所述对所述目标图结构进行图卷积,包括:
对所述目标图结构输入第一图卷积层进行图卷积得到第一图卷积结果,以及将所述第一图卷积结果输入第二图卷积层进行图卷积。
9.根据权利要求7所述的方法,所述池化所有目标隐藏特征,确定所述目标文本对应的分类特征,包括:
通过至少两种池化层分别池化所有目标隐藏特征,确定所述目标文本对应的至少两种池化特征;
拼接所述至少两种池化特征,确定所述目标文本对应的分类特征。
10.根据权利要求9所述的方法,所述通过至少两种池化层分别池化所有目标隐藏特征,确定所述目标文本对应的至少两种池化特征,包括:
通过全局平均池化层对所有目标隐藏特征进行池化,确定所述目标文本对应的全局平均池化特征,以及通过全局最大池化层对所有目标隐藏特征进行池化,确定所述目标文本对应的全局最大池化特征。
11.根据权利要求1所述的方法,所述提取目标文本中的目标文字,包括:
获取目标文本中的所有文字,以及对所述所有文字进行停用词预处理;
提取所述所有文字中经过所述停用词预处理的文字为所述目标文本中的目标文字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310218942.6/1.html,转载请声明来源钻瓜专利网。





