[发明专利]文本分类方法以及装置在审
申请号: | 202011361185.0 | 申请日: | 2020-11-27 |
公开(公告)号: | CN112328798A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 王宇;邱雪涛;佘萧寒;王阳 | 申请(专利权)人: | 中国银联股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/31;G06F16/33 |
代理公司: | 北京市中伦律师事务所 11410 | 代理人: | 杨黎峰 |
地址: | 201203 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 方法 以及 装置 | ||
1.一种文本分类方法,其特征在于,包括:
从分类标签结构体系中提取多个分类标签,所述分类标签结构体系包括多个层级结构,所述层级结构包括多个标签节点,所述分类标签包括从各所述层级结构中提取的标签节点;
计算待分类文本分别与各所述分类标签对应的文本集之间的相似度,确定候选集,所述候选集包括多个候选标签;
利用各所述层级结构对应的文本集,训练各所述层级结构对应的分类模型;
利用各所述层级结构对应的分类模型,结合计算得到的相似度,预测所述待分类文本分别属于各所述候选标签的分数;
将所述分数满足预设条件的候选标签,作为所述待分类文本的分类结果。
2.根据权利要求1所述的方法,其特征在于,所述计算待分类文本分别与各所述分类标签对应的文本集之间的相似度,确定候选集,包括:
针对所述分类标签cl,根据所述分类标签cl对应的文本集构建对应的特征向量Dl,Dl=(k1,w1;k2,w2;…;kn,wn),其中,kn为所述分类标签cl对应的文本集中的特征词,wn为特征词kn在所述分类标签cl中的权重;
根据所述待分类文本dj构建对应的特征向量Dj,Dj=(k′1,w′1;k′2,w′2;…;k′n,w′n),其中,k′n为待分类文本dj的特征词,w′n为特征词k′n在Dj中的权重;
计算特征向量Dl和特征向量Dj之间的相似度:
其中,n为特征向量的维度,wk为Dl的第k维权重,w′k为Dj的第k维权重;
在计算得到的多个相似度中,选择相似度大于阈值的分类标签作为所述候选标签ci。
3.根据权利要求2所述的方法,其特征在于,所述利用各所述层级结构对应的分类模型,结合计算得到的相似度,预测所述待分类文本分别属于各所述候选标签的分数,包括:
利用各所述层级结构对应的分类模型,预测所述待分类文本dj属于所述候选标签ci的第一概率值s2(dj,ci)(i=1,2,…,k)。
4.根据权利要求3所述的方法,其特征在于,所述利用各所述层级结构对应的分类模型,结合计算得到的相似度,预测所述待分类文本分别属于各所述候选标签的分数,包括:
利用各所述层级结构对应的分类模型,预测所述待分类文本dj属于所述候选标签ci中所有上层标签节点的概率值,得到第二概率值s2(dj,cia):
其中,n是所述候选标签ci中所有上层标签节点的数目,cia是所述候选标签ci中所有上层标签节点的集合,是所述候选标签ci中向上回溯m(m=1,2,…,n)层的标签节点,是所述候选标签ci中向上回溯t(t=1,2,…,n)层的标签节点,是所在层级的分类模型对dj的分类结果,是所在层级的分类模型对dj的分类结果,am(m=1,2,…,n)是权重系数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银联股份有限公司,未经中国银联股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011361185.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种并联系统同步电路
- 下一篇:一种单偶氮黄色有机颜料及其制备方法