[发明专利]一种文本反垃圾的方法有效
申请号: | 201410763791.3 | 申请日: | 2014-12-11 |
公开(公告)号: | CN104462062B | 公开(公告)日: | 2018-02-13 |
发明(设计)人: | 赵自翔;邹涛;陈飞舟;朱燕灵 | 申请(专利权)人: | 珠海金山网络游戏科技有限公司;成都西山居互动娱乐科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 广州嘉权专利商标事务所有限公司44205 | 代理人: | 谭志强 |
地址: | 519000 广东省珠*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文本反垃圾的方法,所述方法当服务器接收到用户发送端发送的文本时,判断该用户发送端是否为信任用户,若为信任用户,则直接将该文本发送至用户接收端,否则,则将该用户发送端发送的文本转换为对应的文本信息指纹与标准垃圾库中存储的文本信息指纹进行对比,以判断该文本是否为垃圾文本,若为垃圾文本,则屏蔽过滤,否则,将该文本发送至对应的用户接收端。本发明可快速有效过滤文本垃圾,同时采用用户举报的机制自动循环更新标准垃圾库,大大降低了人工成本和滞后性。 | ||
搜索关键词: | 一种 文本 垃圾 方法 | ||
【主权项】:
一种文本反垃圾的方法,其特征在于,包括当服务器接收到用户发送端发送的文本时,判断该用户发送端是否为信任用户,若为信任用户,则直接将该文本发送至用户接收端,所述用户接收端在接收到文本后,若其举报该文本,则根据筛选规则判断该文本是否为可信文本,当其为不可信文本时,则通过simhash算法将该可信文本转换为对应的文本信息指纹并存储至标准垃圾库,以循环更新标准垃圾库;所述simhash算法包括将用户发送端发送的文本转换为对应的文本信息指纹,提前采用大量的样本,计算hash落在每一位上的概率,对于需要转换的文本,每一次投影仅在它投影到的位上加1,在投影过程结束时,计算每一位上的投影次数与该文本总投影次数的比值,大于采用样本提前计算的对应位概率时则置为1,否则置为0,以及,对文本长度为5范围内进行新组合,并形成特征参与投影过程;否则,则将该用户发送端发送的文本转换为对应的文本信息指纹与标准垃圾库中存储的文本信息指纹进行对比,以判断该文本是否为垃圾文本,若为垃圾文本,则屏蔽过滤,否则,将该文本发送至对应的用户接收端,其中所述筛选规则包括关键词、举报者等级、被举报者等级、该文本被举报次数以及该举报者被举报次数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海金山网络游戏科技有限公司;成都西山居互动娱乐科技有限公司,未经珠海金山网络游戏科技有限公司;成都西山居互动娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410763791.3/,转载请声明来源钻瓜专利网。
- 上一篇:一种联锁数据表自动生成方法及装置
- 下一篇:字符串识别方法及装置