[发明专利]一种用户名样本的标注方法、装置、电子设备及存储介质在审
申请号: | 202010038362.5 | 申请日: | 2020-01-14 |
公开(公告)号: | CN113190646A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 周亚林;张子琦 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/30 |
代理公司: | 北京先进知识产权代理有限公司 11648 | 代理人: | 邵劲草 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户名 样本 标注 方法 装置 电子设备 存储 介质 | ||
1.一种用户名样本的标注方法,其特征在于,包括:
基于获取的各用户名样本的语义特征,对所述用户名样本进行聚类,以获得多个样本簇;
根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇,其中,所述指定特征用于表征样本簇中用户名样本是否为负样本类型,所述样本簇选取条件,基于预先被识别为异常用户名所构成的样本簇的指定特征统计结果确定;
将筛选出的样本簇中的用户名样本标注为负用户名样本。
2.根据权利要求1所述的标注方法,其特征在于,所述指定特征包括:样本簇中不同用户名样本之间的语义特征平均相似度,其中,所述根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇,包括:
计算各样本簇中用户名样本之间的语义特征平均相似度;
从样本簇中筛选,语义特征平均相似度大于语义相似度阈值的样本簇,其中,所述预定样本簇选取条件包括样本簇中不同用户名样本之间的语义特征平均相似度大于语义相似度阈值。
3.根据权利要求2所述的标注方法,其特征在于,计算各样本簇中用户名样本之间的语义特征平均相似度包括:
确定所述各样本簇的聚类中心点对应的用户名样本的语义中心向量;
计算所述各样本簇中各用户名样本的语义特征向量与所述各样本簇各自的聚类中心点对应的用户名样本的语义中心向量的平均距离,得到样本簇中用户名样本之间的语义特征平均相似度。
4.根据权利要求1所述的标注方法,其特征在于,所述指定特征包括:样本簇中所述用户名样本被标注的正负样本类型相似度,其中,所述根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇,包括:
计算各样本簇中用户名样本之间的被标注的正负样本类型相似度;
从样本簇中筛选,用户名样本被标注的正负样本类型相似度小于类型相似度阈值的样本簇,其中,所述预定样本簇选取条件包括样本簇中所述用户名样本被标注的正负样本类型相似度小于类型相似度阈值。
5.根据权利要求4所述的标注方法,其特征在于,计算各样本簇中用户名样本的正负样本类型相似度,包括:
确定所述各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量;
分别计算所述各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量的比值,作为各样本簇各自包含的用户名样本的正负样本类型相似度。
6.一种基于如权利要求1所述的用户名样本的标注方法的用户名识别模型的训练方法,其特征在于,所述训练方法包括:
基于所述负用户名样本以及所述多个样本簇中的其余用户名样本,构建训练样本集,其中,所述训练样本集用于训练对用户名进行分类识别的用户名识别模型;
将所述训练样本集输入神经网络文本分类模型,从所述神经网络文本分类模型的隐藏层获取第一特征向量;
将所述训练样本集输入神经网络结构模型,从所述神经网络结构模型的隐藏层获取第二特征向量;
以所述第一特征向量和所述第二特征向量作为训练样本,训练用于对用户名进行分类识别的用户名识别模型。
7.一种基于如权利要求6所述的用户名识别模型的训练方法的用户名识别方法,其特征在于,所述识别方法包括:
获取待识别的用户名;
将所述待识别的用户名输入训练好的用户名识别模型进行识别,以获得所述训练好的用户名识别模型输出的识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010038362.5/1.html,转载请声明来源钻瓜专利网。