[发明专利]网站内容处理方法、装置、服务器和计算机可读存储介质在审
申请号: | 202011026470.7 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112131507A | 公开(公告)日: | 2020-12-25 |
发明(设计)人: | 向文川 | 申请(专利权)人: | 成都知道创宇信息技术有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/9535 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 李莎 |
地址: | 610000 四川省成都市高新区中国(*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 内容 处理 方法 装置 服务器 计算机 可读 存储 介质 | ||
本发明的实施例提供了一种网站内容处理方法、装置、服务器和计算机可读存储介质,涉及互联网技术领域,方法包括:检测待检测域名所对应的网站中的内容,并将检测得到的内容与违规热点词汇进行匹配,然后再与违规普通词汇进行匹配,进而判断检测得到的内容是否与违规热点词汇或违规普通词汇相匹配,若匹配,则对待检测域名进行违规处理,通过引入违规热点词汇,并优先基于违规热点词汇进行匹配,能够有效提高高频违规网站的识别效率,实现对待检测域名所对应的网站中的内容的快速检测、处理。
技术领域
本发明涉及互联网技术领域,具体而言,涉及一种网站内容处理方法、装置、服务器和计算机可读存储介质。
背景技术
现阶段流行的SaaS(Software-as-a-Service,软件即服务)服务模式,支持用户在CDN(Content Delivery Network,内容分发网络)服务商提供的云平台自主添加域名,并通过修改DNS(Domain Name System,域名系统)解析达到快速接入的目的,大型CDN服务商可能每日要接受成千上万新域名接入,同时已享受平台服务的网站也可能存在网站内容变更等,为了确保网站内容的健康性,平台必须进行内容审核,对涉及违规的域名进行处理。
发明内容
本发明的目的包括,例如,提供了一种网站内容处理方法、装置、服务器和计算机可读存储介质,其能够实现对待检测域名所对应的网站中的内容的快速检测、处理。
本发明的实施例可以这样实现:
第一方面,本发明实施例提供一种网站内容处理方法,应用于服务器,所述服务器中维护有违规热点词汇和违规普通词汇,所述方法包括:
针对每个待检测域名,检测该待检测域名所对应的网站中的内容;
将检测得到的所述内容与违规热点词汇进行匹配,然后再与违规普通词汇进行匹配;
判断检测得到的所述内容是否与所述违规热点词汇或违规普通词汇相匹配,若匹配,则对所述待检测域名进行违规处理。
在可选的实施方式中,所述方法还包括:根据违规处理结果,更新所述违规热点词汇。
在可选的实施方式中,所述根据违规处理结果,更新所述违规热点词汇,包括:
根据以下公式,计算各违规词的热度:总出现次数*第一权重+时间衰减参数*第二权重;
根据各所述违规词的热度大小,得到实时违规热点词汇。
在可选的实施方式中,待检测域名所对应的网站中的内容包括:网站标题、网站首页内容和网站图片内容中的至少一种。
在可选的实施方式中,在待检测域名所对应的网站中的内容包括网站图片内容时,所述检测该待检测域名所对应的网站中的内容,包括:基于Python3的图片解析库pytesseract和PIL,将图片中的内容进行文字解析。
在可选的实施方式中,所述方法还包括获取待检测域名的步骤,该步骤包括:
响应于在云平台添加根域名、需要服务的二级域名并通过修改域名系统接入域名的操作,将所要接入的域名作为待检测域名。
在可选的实施方式中,所述将检测得到的所述内容与违规热点词汇进行匹配,然后再与违规普通词汇进行匹配;判断检测得到的所述内容是否与所述违规热点词汇或违规普通词汇相匹配,若匹配,则对所述待检测域名进行违规处理,包括:
将检测得到的所述内容与违规热点词汇进行匹配;
若匹配,则将所述待检测域名进行违规关键词标记,按设定周期将被进行违规关键词标记的所有所述待检测域名进行推送和违规核实;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都知道创宇信息技术有限公司,未经成都知道创宇信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011026470.7/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法