[发明专利]文本分类标注样本的异常检测方法、装置、设备及介质在审
| 申请号: | 202210749204.X | 申请日: | 2022-06-28 |
| 公开(公告)号: | CN115098679A | 公开(公告)日: | 2022-09-23 |
| 发明(设计)人: | 张健;王子豪;王子;唐家英;陈运文;纪达麒 | 申请(专利权)人: | 达而观信息科技(上海)有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06F40/30 |
| 代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 严慧 |
| 地址: | 201203 上海市浦东新区中国(上海)自*** | 国省代码: | 上海;31 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 分类 标注 样本 异常 检测 方法 装置 设备 介质 | ||
1.一种文本分类标注样本的异常检测方法,其特征在于,包括:
获取待去噪的文本分类标注数据集,其中,每个文本分类标注数据中包括分类标签;
计算两两文本分类标注数据之间的语义相似度,并根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇;
在每个聚类簇中,对相同分类标签的各文本分类标注数据进行二次聚类,得到与每个聚类簇分别对应的分类子簇;
根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇。
2.根据权利要求1所述的方法,其特征在于,计算两两文本分类标注数据之间的语义相似度,包括:
将两两文本分类标注数据分别输入至预先训练的语义相似度模型中,获取所述两两文本分类标注数据之间的语义相似度。
3.根据权利要求2所述的方法,其特征在于,在将两两文本分类标注数据分别输入至预先训练的语义相似度模型中之前,还包括:
将获取到的两个样本分类标注数据分别输入至参数共享层,得到两个样本分类标注数据分别对应的多个字向量;
将第一样本分类标注数据对应的各所述字向量输入至池化层,得到第一样本分类标注数据向量,将第二样本分类标注数据对应的各所述字向量输入至池化层,得到第二样本分类标注数据向量;
计算第一样本分类标注数据向量和第二样本分类标注数据向量的差值的绝对值,得到样本分类标注数据差值向量;
拼接第一样本分类标注数据向量、第二样本分类标注数据向量以及样本分类标注数据差值向量,得到样本分类标注数据拼接向量;
将样本分类标注数据拼接向量输入至语义分类器中来训练,训练完成之后得到语义相似度模型。
4.根据权利要求1所述的方法,其特征在于,根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇,包括:
根据所述语义相似度计算结果,构建得到语义相似度矩阵,其中所述语义相似度矩阵中的一个矩阵元素为两个文本分类标注数据之间的语义相似度;
在所述文本分类标注数据集中,获取一个未处理的目标数据,并标注所述目标数据为已处理状态;
以所述目标数据为起点,查询所述语义相似度矩阵,逐次遍历与所述目标数据的全部密度相连数据;
将所述目标数据与各所述密度相连数据共同组成一个聚类簇,并标注各所述密度相连数据的已处理状态;
返回执行在所述文本分类标注数据集中,获取一个未处理的目标数据的操作,直至完成对全部文本分类标注数据的处理。
5.根据权利要求4所述的方法,其特征在于,根据语义相似度计算结果,对所述文本分类标注数据集进行聚类处理,得到至少一个聚类簇之后,还包括:
将不属于任一聚类簇的孤立文本分类标注数据识别为异常标注数据。
6.根据权利要求1-5任一项所述的方法,其特征在于,根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇,包括:
统计在当前分类子簇中文本各分类标注数据的数量,并计算各分类标注数据的数量占所属聚类簇中的数量的占比权重值;
判断各占比权重值是否大于预设的占比权重过滤阈值,若否,则将当前分类子簇中文本各分类标注数据识别为异常分类子簇。
7.根据权利要求1-5任一项所述的方法,其特征在于,在根据分类子簇中的文本分类标注数据在所属聚类簇中的数量占比,识别异常分类子簇之后,还包括:
分别在识别为异常分类子簇中的各文本分类标注数据中添加解释标签,并反馈给用户。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于达而观信息科技(上海)有限公司,未经达而观信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210749204.X/1.html,转载请声明来源钻瓜专利网。





