[发明专利]标的物分类方法、存储介质及计算机终端在审
申请号: | 202210130574.5 | 申请日: | 2022-02-11 |
公开(公告)号: | CN114565444A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 蒋士淼;李红松;张雅婷;魏梦溪;马路遥;王业相;张景远;刘晓钟 | 申请(专利权)人: | 阿里巴巴(中国)有限公司 |
主分类号: | G06Q30/08 | 分类号: | G06Q30/08;G06F16/35;G06F40/216;G06N3/02 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 谢湘宁;李静茹 |
地址: | 311121 浙江省杭州市滨江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标的物 分类 方法 存储 介质 计算机 终端 | ||
1.一种标的物分类方法,其特征在于,包括:
获取目标数据集,其中,所述目标数据集包含原始标的物,以及原始标的物对应的多个层级的原始类别,所述原始类别属于预设行业分类中包含的多个层级的行业类别;
利用所述目标数据集对分类模型进行训练,其中,所述分类模型用于对目标标的物进行层次分类,得到所述目标标的物的目标分类结果。
2.根据权利要求1所述的方法,其特征在于,利用所述目标数据集对分类模型进行训练包括:
基于所述目标数据集构建多个第一训练样本,其中,每个第一训练样本包括:输入样本和第一类别,所述输入样本包含所述原始标的物和当前层级的原始类别,或所述原始标的物和预设类别,所述第一类别为第一层级的原始类别,或所述当前层级的下一层级的原始类别;
利用所述多个第一训练样本对所述分类模型进行训练。
3.根据权利要求2所述的方法,其特征在于,所述分类模型包括:依次连接的自编码语言模块、防止过拟合层和至少一个全连接层;使用交叉熵损失函数对所述分类模型进行训练。
4.根据权利要求1所述的方法,其特征在于,所述分类模型包含语言模型,其中,所述方法还包括:
确定所述原始类别对应的原始标识信息;
基于所述目标数据集构建第二训练样本,其中,所述第二训练样本基于预设长度、预设深度、所述原始标的物和所述原始标识信息生成;
利用所述第二训练样本对所述语言模型进行训练,其中,所述语言模型用于对输入序列进行层次分类,得到输出序列,所述输入序列基于所述预设长度、所述预设深度、所述目标标的物和预设值构建,所述目标分类结果基于所述输出序列包含的目标标识信息对应的类别得到。
5.根据权利要求1所述的方法,其特征在于,获取目标数据集包括:
获取第一数据集和第二数据集,其中,所述第一数据集包含所述行业类别,所述第二数据集包含预设统计分类中的多个预设标的物和多个统计类别;
将所述第二数据集扩展至所述第一数据集,生成增广分类;
基于所述增广分类构建所述目标数据集。
6.根据权利要求5所述的方法,其特征在于,将所述第二数据集扩展至所述第一数据集,生成增广分类,包括:
获取所述第一数据集中多个层级的行业类别,构建第一列表,其中,所述第一列表包含多个第一数据项;
基于所述第二数据集中多个层级的统计类别,构建第二列表,其中,所述第二列表包含多个第二数据项;
基于每个第一数据项和每个第二数据项的连接关系,确定所述每个第一数据项的适合度;
确定最大适合度对应的第一数据项在所述第一列表中的目标序号;
在所述目标序号不是预设序号的情况下,将所述第二数据集中其他统计类别绑定至所述第一列表中所述目标序号对应的目标行业类别之下。
7.根据权利要求5所述的方法,其特征在于,将所述第二数据集扩展至所述第一数据集,生成增广分类,包括:
确定所述增广分类中末端类别为所述原始标的物;
确定所述增广分类中所述末端类别对应的多个层级的目标前序类别为所述原始类别,其中,所述目标前序类别为属于所述行业类别的前序类别。
8.一种标的物分类方法,其特征在于,包括:
获取目标标的物;
利用分类模型对所述目标标的物进行层次分类,得到所述目标标的物的目标分类结果,其中,所述目标分类结果包括:多个层级的目标类别,所述类别属于预设行业分类中包含的多个层级的行业类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴(中国)有限公司,未经阿里巴巴(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210130574.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种马桶座圈或马桶盖板及其制备方法
- 下一篇:证件识别方法、设备、介质及产品