[发明专利]欺诈网页识别方法、系统、设备及存储介质在审

申请号：	202111122312.6	申请日：	2021-09-24
公开（公告）号：	CN113779956A	公开（公告）日：	2021-12-10
发明（设计）人：	施丽佳;马怡安	申请（专利权）人：	中国电信股份有限公司
主分类号：	G06F40/194	分类号：	G06F40/194;G06F40/289;G06F40/216
代理公司：	北京律智知识产权代理有限公司 11438	代理人：	孙宝海;袁礼君
地址：	100033 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	欺诈网页识别方法系统设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种欺诈网页识别方法、系统、设备及存储介质，所述方法包括步骤：分别获取待测网页中的第一文本数据和预设对比库中每一参考网页的第二文本数据；所述预设对比库中具有至少一参考网页；分别获取第一文本数据与每一第二文本数据之间的第一相似度，以及所述第二文本数据对应的参考网页的自相关度；基于所述第一相似度和所述自相关度，分别获取所述待测网页与每一所述参考网页之间的相似率；基于所述相似率，对所述待测网页进行识别；本申请实现对于欺诈网页的检测在保证准确度的同时，具有较好的计算效率。

技术领域

本发明涉及计算机技术领域，具体地说，涉及一种欺诈网页识别方法、系统、设备及存储介质。

背景技术

互联网上存在一些恶意的网页，通过嵌入与官方网站相似标题、关键词和文章内容，使用户混淆，达到钓鱼欺诈的目的。

现有技术中，对欺诈网站(即钓鱼网站)常见的检测算法有TF-IDF(TermFrequency-Inverse Document Frequency)和余弦距离相似度算法相结合的方法、或者simhash文本相似度算法和汉明距离算法相结合的方法，通过比较待测网站与官方网站的文本相似度，来检测仿冒的钓鱼网站。但上述方法分别存在余弦距离算法对于长文本计算效率较低；simhash算法对内容极为敏感，容易造成相似度结果值过低，计算准确度较差的问题。

发明内容

针对现有技术中的问题，本发明的目的在于提供一种欺诈网页识别方法、系统、设备及存储介质，实现对于欺诈网页的检测同时具有较佳的计算效率和准确度。

为实现上述目的，本发明提供了一种欺诈网页识别方法，所述方法包括以下步骤：

分别获取待测网页中的第一文本数据和预设对比库中每一参考网页的第二文本数据；所述预设对比库中具有至少一参考网页；

分别获取第一文本数据与每一第二文本数据之间的第一相似度，以及所述第二文本数据对应的参考网页的自相关度；

基于所述第一相似度和所述自相关度，分别获取所述待测网页与每一所述参考网页之间的相似率；

基于所述相似率，对所述待测网页进行识别。

可选地，所述获取第一文本数据与每一第二文本数据之间的第一相似度，包括：

对第一文本数据进行分词，得到第一词列表；

对所述第一词列表进行去重处理，得到第一词序列；

计算所述第一词序列中的每个词与一第二文本数据之间的第二相似度；

将第一词序列中所有词对应的第二相似度相加，得到第一文本数据与所述第二文本数据之间的第一相似度。