[发明专利]一种垃圾内容识别方法及装置有效

专利信息
申请号: 201210144007.1 申请日: 2012-05-10
公开(公告)号: CN103389995B 公开(公告)日: 2016-11-23
发明(设计)人: 王帅 申请(专利权)人: 阿里巴巴集团控股有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京同达信恒知识产权代理有限公司 11291 代理人: 郭润湘
地址: 英属开曼群岛大开曼*** 国省代码: 开曼群岛;KY
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 垃圾 内容 识别 方法 装置
【说明书】:

技术领域

本申请涉及通信领域,尤其涉及一种垃圾内容识别方法及装置。

背景技术

随着网络的推广和普及,网络信息量越来越大。大量的网络信息中必然存在一些非法信息(可以将非法信息称为垃圾内容),为了保证网络信息的健康、合法,垃圾内容的自动识别也变得越来越重要。

目前常用的反垃圾(垃圾内容的自动识别)方案主要有两大类,一类是基于用户行为的反垃圾方案,一类是基于用户内容的反垃圾方案。

基于用户行为的反垃圾方案主要是根据用户的操作行为进行分类,将发布频率高于设定值的用户定义为垃圾用户,从而识别哪些用户是正常用户,哪些用户是垃圾用户,并可以将垃圾用户发布的内容确定为垃圾内容。

基于用户行为的反垃圾方案在机器软件用户大批量、高频率的发布内容的时候比较有效,因为可以通过发布频率很清晰地识别出垃圾用户。但是,如果用户适当降低发布频率,将无法通过发布频率很清晰地识别出垃圾用户。比如在一个用户利用一个账号一天进行1000次内容发布的时候,分类区分比较明显,可以很容易地识别出该用户为垃圾用户,进而识别出垃圾内容。但是,如果一个用户拥有100个账号,一个账号一天发布10次的时候,这种方式的区分就显得不那么奏效,无法有效识别出该用户为垃圾用户,也就无法识别出该用户发布的垃圾内容。所以对于多账号低频率的发布策略,基于用户行为的反垃圾方案无法有效识别垃圾用户,也就无法有效识别垃圾内容。

基于内容的反垃圾方案主要包括基于规则的反垃圾方案和基于分类器的的反垃圾方案两种方法。

基于规则的反垃圾方案的做法,一般是预设规则过滤器(fiter),将关键词和用户输入内容进行精确或模糊匹配,将符合预设规则的内容确定为垃圾内容,以达到垃圾内容识别的效果。基于规则的反垃圾方案需要确定关键词,关键词确定的难度较大,确定出的关键词容易出现误选和漏选的问题。另外,同一个关键词,在不同的上下文环境中,所代表的意义就不同,很难做到普适性,垃圾内容识别的精度难以得到保证。比如具有“美瞳”这个关键词的内容在淘女郎产品中就是垃圾内容,但是,在美容产品中就不是垃圾内容。在关键词的数量较多时,关键词的二义性会表现得更加明显,垃圾内容识别的精度会受到更大的影响。

基于分类器的反垃圾方案中基于朴素贝叶斯的反垃圾方案,是目前主流的反垃圾方法。但是,由于朴素贝叶斯分类器的条件独立性的限制,使得训练过程非常耗时,且分类器的精度提升也存在瓶颈。

发明内容

本申请实施例提供一种垃圾内容识别方法及装置,用于缩短垃圾内容的识别时间,并提高垃圾内容的识别精度。

一种垃圾内容识别方法,所述方法包括:

接收用户提供的待识别样本数据;

根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容,

其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的。

一种垃圾内容识别装置,所述装置包括:

接收模块,用于接收用户提供的待识别样本数据;

预测模块,用于根据朴素贝叶斯分类器、第一信任因子和第二信任因子确定待识别样本数据的类别,在所述待识别样本数据被分类为垃圾内容类别时,表示该待识别样本数据属于垃圾内容,在所述待识别样本数据被分类为非垃圾内容类别时,表示该待识别样本数据属于非垃圾内容,其中,所述第一信任因子是为配置的垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的,所述第二信任因子是为配置的非垃圾内容类别的样本数据中每个特征出现的条件概率分别设置的。

根据本申请实施例提供的方案,在接收到用户提供的待识别样本数据时,相对于现有技术中利用基于朴素贝叶斯分类器进行分类,本申请实施例对朴素贝叶斯分类器进行改进,结合第一信任因子和第二信任因子进行待识别样本数据的类别识别。由于引入了第一信任因子和第二信任因子,通过信任因子来调节条件独立性,使得朴素贝叶斯中条件独立变得更加柔和,可以更好地实现类别分类,从而提高垃圾内容的识别精度,且由于引入了第一信任因子和第二信任因子,使得分类时中引入的特征数量较少,使得利用较短的时间即可以实现垃圾内容的识别。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210144007.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top