[发明专利]标签分类方法、装置、电子设备和存储介质有效

申请号：	202110711706.9	申请日：	2021-06-25
公开（公告）号：	CN113435499B	公开（公告）日：	2023-06-20
发明（设计）人：	颜泽龙;王健宗	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F18/214	分类号：	G06F18/214;G06F16/34
代理公司：	深圳中一联合知识产权代理有限公司 44414	代理人：	龙欢
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	标签分类方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请适用于自然语言处理技术领域，提供了一种标签分类方法、装置、电子设备和计算机可读存储介质。该方法包括：确定待处理数据和小样本数据集中的每个标准数据之间的第一相似度，获得待处理数据的相似度阈值；根据相似度阈值以及目标阈值，得到待处理数据的实际阈值；确定待处理数据和小样本数据集的每个标签之间的第二相似度；根据第二相似度和实际阈值，确定待处理数据具备的标签。本申请将用于第二场景标签分类的目标阈值迁移到待处理数据的所属的第一场景中，得到待处理数据的实际阈值；并根据该实际阈值确定待处理数据的标签，无需使用大量样本对待处理数据的场景进行模型训练，既降低了模型的场景迁移成本，又能保证标签分类的准确性。

技术领域

本申请属于自然语言处理技术领域，尤其涉及一种标签分类方法、装置、电子设备和计算机可读存储介质。

背景技术

多标签分类问题是自然语言处理中一个常见的问题，例如，用户的一句话里可能包含多种意图，如何确定意图的数量并准确捕获每一种意图就是多标签分类的其中一种用途。

目前，效果最理想的方法就是为每一种意图训练一个分类模型，再选取合适的阈值，如果文本在某个意图预测分类模型下的概率大于该阈值，则认为该文本包含该意图。

对于有充足样本数据的场景而言，上述方法可以取得不错的效果。但是，设置好的阈值不具备普适性，在一场景得到的阈值很难直接迁移到另一场景。上述方法就要求对于每个场景都要获得合适的阈值，为此，每个分类模型都需要大量的标注数据进行训练，而要满足多个分类模型对训练样本的需求是比较困难的。

发明内容

本申请实施例提供了一种标签分类方法、装置、电子设备和计算机可读存储介质，可以将第二场景的阈值迁移到待处理数据的第一场景中，以获得待处理数据的标签。

第一方面，本申请实施例提供了一种标签分类方法，包括：

获取待处理数据；

确定所述待处理数据和小样本数据集中的每个标准数据之间的第一相似度，所述标准数据为已标注标签且与所述待处理数据同属于第一场景的数据；

根据所述第一相似度，获得所述待处理数据的相似度阈值；