[发明专利]一种用户名样本的标注方法、装置、电子设备及存储介质在审
申请号: | 202010038362.5 | 申请日: | 2020-01-14 |
公开(公告)号: | CN113190646A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 周亚林;张子琦 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/30 |
代理公司: | 北京先进知识产权代理有限公司 11648 | 代理人: | 邵劲草 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户名 样本 标注 方法 装置 电子设备 存储 介质 | ||
本公开关于一种用户名样本的标注方法,所述标注方法包括:基于获取的各用户名样本的语义特征,对用户名样本进行聚类,以获得多个样本簇;根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇,其中,所述指定特征用于表征样本簇中用户名样本是否为负样本类型,所述样本簇选取条件,基于预先被识别为异常用户名所构成的样本簇的指定特征统计结果确定;将筛选出的样本簇中的用户名样本标注为负用户名样本。
技术领域
本公开涉及网络安全技术领域,尤其涉及一种用户名样本的标注方法、装置、电子设备及存储介质。
背景技术
用户名(英文名:Username),也称账户名,可以使用汉字、字母、字码等,如珠穆朗玛峰、zmlmf、12345,等,都可以作为用户名。异常用户名,比如,比较典型的是恶意用户利用脚本大批量生成并注册的用户名,这样的用户名要么是自身包含色情反动信息,要么就是在网络平台散布色情信息、钓鱼网站链接、广告等,会对合法用户造成不良影响,也容易引发网络安全问题。
为防止网络平台出现异常用户名,有必要对注册的用户名进行识别,进而限制异常用户名的成功注册或使用。
相关技术中,通常可以采用人工标注的方式对用户名样本进行正负样本类型标注,然后将进行正负样本类型标注后的用户名样本作为训练样本,训练用于对用户名进行分类识别的用户名识别模型,最后通过训练好的模型识别目标用户名是否异常。
由于上述现有技术在进行用户名样本标注时,采用的是单纯由人工进行标注的方法,导致标注人员个人的主观判断能力对标注结果的准确性影响过大,一旦标注人员主观判断能力较低,则容易出现标注结果不准确的情况,导致训练得到的模型的识别结果准确度受到影响。
发明内容
本公开提供一种用户名样本的标注方法、装置及电子设备、一种用户名识别模型的训练方法、装置、电子设备及存储介质和一种基于用户名识别模型的用户名识别方法、装置、电子设备及存储介质,以至少解决相关技术中由于单纯由人工进行用户名样本标注,而导致训练得到的模型的识别结果不准确的问题。
本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种用户名样本的标注方法,包括:
基于获取的各用户名样本的语义特征,对所述用户名样本进行聚类,以获得多个样本簇;
根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇;样本簇的所述指定特征表征样本簇中用户名样本是否为负样本类型;所述样本簇选取条件,基于预先被识别为异常用户名所构成的样本簇的指定特征统计结果确定;
将筛选出的样本簇中的用户名样本标注为负用户名样本。
在一种可选的实施方式中,所述指定特征包括:样本簇中不同用户名样本之间的语义特征平均相似度,其中,所述根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇,包括:
计算各样本簇中用户名样本之间的语义特征平均相似度;
从样本簇中筛选,语义特征平均相似度大于语义相似度阈值的样本簇,其中,所述预定样本簇选取条件包括样本簇中不同用户名样本之间的语义特征平均相似度大于语义相似度阈值。
在一种可选的实施方式中,所述计算各样本簇中用户名样本之间的语义特征平均相似度包括:
确定所述各样本簇的聚类中心点对应的用户名样本的语义中心向量;
计算所述各样本簇中各用户名样本的语义特征向量与所述各样本簇各自的聚类中心点对应的用户名样本的语义中心向量的平均距离,得到样本簇中用户名样本之间的语义特征平均相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010038362.5/2.html,转载请声明来源钻瓜专利网。