[发明专利]内容分类方法、装置、电子设备和计算机可读存储介质在审
申请号: | 202110770656.1 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113821632A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 黄剑辉 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 李汉亮 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 内容 分类 方法 装置 电子设备 计算机 可读 存储 介质 | ||
本发明实施例公开了一种内容分类方法、装置、电子设备和计算机可读存储介质;本发明实施例在获取待分类内容后,对待分类内容中的文本内容进行特征提取,得到文本内容的文本特征,并对文本特征进行分类,得到待分类内容的至少一个一级分类标签,然后,根据一级分类标签,确定待分类内容的二级分类参数,然后,基于二级分类参数,对文本特征进行分类,得到待分类内容的二级分类标签,最后,根据二级分类标签,对待分类内容进行分类;该方案可以提升内容分类的准确性。
技术领域
本发明涉及通信技术领域,具体涉及一种内容分类方法、装置、电子设备和计算机可读存储介质。
背景技术
近年来,随着互联网技术的飞速发展,出现了海量的内容,为了便于对这些内容进行管理,往往就需要对内容进行分类,分类的类目往往可以包括多个分类层级,比如,可以分为一级和二级,等等。现有的内容分类方法往往采用分类模型对内容进行多分类,直接输出层级最小(即粒度最小)的分类标签,再由结果来回溯其他层级的分类标签,从而完成内容分类。
在对现有技术的研究和实践过程中,本发明的发明人发现,对于分类模型来说,类目体系越上层,粒度越粗,但是分类难度会更简单,往往可以获取更大的分类准确率,而直接输出层级最小的分类标签的分类准确率相对也最低,因此,导致内容分类的准确性不足。
发明内容
本发明实施例提供一种内容分类方法、装置、电子设备和计算机可读存储介质,可以提高内容分类的准确性。
一种内容分类方法,包括:
获取待分类内容,所述待分类内容包括文本内容;
对所述文本内容进行特征提取,得到所述文本内容的文本特征,并对所述文本特征进行分类,得到所述待分类内容的至少一个一级分类标签;
根据所述一级分类标签,确定所述待分类内容的二级分类参数;
基于所述二级分类参数,对所述文本特征进行分类,得到所述待分类内容的二级分类标签;
根据所述二级分类标签,对所述待分类内容进行分类。
相应的,本发明实施例提供一种内容分类装置,包括:
获取单元,用于获取待分类内容,所述待分类内容包括文本内容;
一级分类单元,用于对所述文本内容进行特征提取,得到所述文本内容的文本特征,并对所述文本特征进行分类,得到所述待分类内容的至少一个一级分类标签;
确定单元,用于根据所述一级分类标签,确定所述待分类内容的二级分类参数;
二级分类单元,用于基于所述二级分类参数,对所述文本特征进行分类,得到所述待分类内容的二级分类标签;
内容分类单元,用于根据所述二级分类标签,对所述待分类内容进行分类。
可选的,在一些实施例中,所述一级分类单元,具体可以用于采用训练后内容分类模型的一级分类网络对所述文本特征进行归一化处理,得到归一化后文本特征;根据所述归一化后文本特征,确定预设一级分类标签集合对应的概率信息;基于所述概率信息,在所述预设一级分类标签中筛选出所述待分类内容的至少一个一级分类标签。
可选的,在一些实施例中,所述确定单元,具体可以用于获取所述训练后内容分类模型中二级分类网络的属性信息;在所述属性信息中识别出每一二级分类网络的网络标识;在所述网络标识中筛选出所述一级分类标签对应的网络标识,得到目标网络标识,并将所述目标网络标识作为所待分类内容的二级分类参数。
可选的,在一些实施例中,所述二级分类单元,具体可以用于根据所述二级分类参数,在所述二级分类网络中筛选出至少一个目标二级分类网络;采用所述目标二级分类网络,对所述文本特征进行分类,得到所述文本特征的分类信息;将所述分类信息进行融合,以得到所述待分类内容的二级分类标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110770656.1/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法