[发明专利]一种异常链接处理方法、装置、计算机设备和存储介质在审
申请号: | 202111242832.0 | 申请日: | 2021-10-25 |
公开(公告)号: | CN114329287A | 公开(公告)日: | 2022-04-12 |
发明(设计)人: | 唐亚腾;谢锦汉;钟滨;徐进 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 李玉婷 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 异常 链接 处理 方法 装置 计算机 设备 存储 介质 | ||
本申请实施例公开了一种异常链接处理方法、装置、计算机设备和存储介质;本申请实施例可以获取待检测的搜索链接;基于搜索链接进行内容搜索,得到每个搜索链接对应的网页结构;对网页结构进行解析,得到搜索链接在至少一个内容维度上的描述信息;针对每个内容维度的描述信息,采用对应的异常链接检测策略对搜索链接进行异常检测,得到每个内容维度的异常检测结果;基于异常检测结果对搜索链接进行封禁处理,从而提高了对异常链接进行处理的准确性。
技术领域
本申请涉及计算机技术领域,具体涉及一种异常链接处理方法、装置、计算机设备和存储介质。
背景技术
异常链接可以包括具有异常情况的链接。例如,该异常链接可以包括服务器的地址已经被改变,从而导致不能寻找到相应的地址的链接。又例如,异常链接可以包括不能正确地显示相应的网页内容的链接。当用户利用搜索引擎搜索内容时,若搜索结果中具有过多的异常链接,将会影响搜索的效果,从而影响用户使用搜索引擎的体验。通过对现有技术的实践,本申请的发明人发现现有的对异常链接进行处理的方法存在准确性不高的问题。
发明内容
本申请实施例提出了一种异常链接处理方法、装置、计算机设备和存储介质,可以对提高对异常链接进行处理的准确性。
本申请实施例提供了一种异常链接处理方法,包括:
获取待检测的搜索链接;
基于所述搜索链接进行内容搜索,得到每个搜索链接对应的网页结构;
对所述网页结构进行解析,得到所述搜索链接在至少一个内容维度上的描述信息;
针对每个内容维度的描述信息,采用对应的异常链接检测策略对所述搜索链接进行异常检测,得到每个内容维度的异常检测结果;
基于所述异常检测结果对所述搜索链接进行封禁处理。
相应的,本申请实施例还提供了一种异常链接处理装置,包括:
获取单元,用于获取待检测的搜索链接;
内容搜索单元,用于基于所述搜索链接进行内容搜索,得到每个搜索链接对应的网页结构;
解析单元,用于对所述网页结构进行解析,得到所述搜索链接在至少一个内容维度上的描述信息;
异常检测单元,用于针对每个内容维度的描述信息,采用对应的异常链接检测策略对所述搜索链接进行异常检测,得到每个内容维度的异常检测结果;
封禁单元,用于基于所述异常检测结果对所述搜索链接进行封禁处理。
在一实施例中,所述异常检测单元,包括:
过滤内容检测子单元,用于对所述原始网页内容进行过滤内容检测;
第一解析子单元,用于当所述原始网页内容不包括预设过滤内容时,对所述原始网页内容进行解析,得到所述原始网页内容中的主体内容;
内容检测子单元,用于对所述主体内容进行内容检测,得到所述异常检测结果。
在一实施例中,所述内容检测子单元,包括:
文本检测模块,用于对所述主体内容进行文本检测;
异常关键词检测模块,用于当检测到所述主体内容包括文本内容时,对所述文本内容进行异常关键词检测,得到所述异常检测结果。
在一实施例中,所述异常关键词检测模块,包括:
分词子模块,用于对所述文本内容进行分词处理,得到至少一个文本子词;
关键词匹配子模块,用于将所述文本子词和预设异常关键词进行匹配,得到关键词匹配结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111242832.0/2.html,转载请声明来源钻瓜专利网。