[发明专利]垃圾评论识别方法和装置在审
申请号: | 201610170368.1 | 申请日: | 2016-03-23 |
公开(公告)号: | CN107229608A | 公开(公告)日: | 2017-10-03 |
发明(设计)人: | 刘立佳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙)11370 | 代理人: | 朱海波 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾 评论 识别 方法 装置 | ||
技术领域
本发明涉及互联网技术,尤其涉及一种垃圾评论识别方法以及垃圾评论识别装置。
背景技术
在互联网产品评论技术领域中,垃圾评论通常包括:无用评论以及不真实评论,其中的无用评论主要是指不带有感情色彩的随机文本、对非产品信息的评论文本、问句以及广告等,其中的不真实评论主要是指基于推销某一产品而诋毁竞争对手的产品等原因而故意发表的不符合实际情况的评论。相较于无用评论而言,不真实评论往往与真实评论更相像,而且不真实评论的危害性也往往更大。
垃圾评论(尤其是不真实评论)会对产品的公正性产生不良影响,破坏产品真实属性和用户反馈信息。需要一种技术,能够从众多的评论中准确的识别出垃圾评论(尤其是识别出不真实评论),保护用户反馈数据完整性和真实性。
发明内容
本发明的目的是提供一种垃圾评论识别方法及装置。
根据本发明的一个方面,提供一种垃圾评论识别方法,该方法主要包括以下步骤:根据从评论集合中读取出的一条评论中的分词为所述评论构建语言模型,以获得所述评论的概率;根据所述评论的概率与所述评论集合中的另一条评论的概率计算两条评论之间的相似度;在所述相似度满足相似度要求的情况下,将所述两条评论均确定为不真实评论。
优选的,前述的垃圾评论识别方法,其中该方法还包括:获取网络中的评论;在判断出所述获取的评论满足预定条件的情况下,将所述获取的评论 添加在评论集合中。
优选的,前述的垃圾评论识别方法,其中所述在判断出所述获取的评论满足预定条件的情况下,将所述获取的评论添加在评论集合中的步骤包括:在根据分类模型输出的信息确定所述获取的评论不是无用评论的情况下,将所述获取的评论添加在评论集合中;或者,在判断出所述获取的评论的长度超过预定长度阈值的情况下,将所述获取的评论添加在所述评论集合中;或者,在根据分类模型输出的信息确定所述获取的评论不是无用评论,且在判断出所述获取的评论的长度超过预定长度阈值的情况下,将所述获取的评论添加在评论集合中。
优选的,前述的垃圾评论识别方法,其中所述根据分类模型输出的信息确定所述获取的评论不是无用评论的步骤包括:将所述获取的评论进行特征量化处理,以获得所述获取的评论对应的特征量化值;将所述评论对应的特征量化值提供给逻辑回归分类模型;根据所述逻辑回归分类模型输出的概率值判断所述获取的评论是否为无用评论。
优选的,前述的垃圾评论识别方法,其中该获取的评论对应的特征量化值还包括:基于信息增益方式从评论样本中抽取出的特征分词的量化值。
优选的,前述的垃圾评论识别方法,其中所述将所述获取的评论进行特征量化处理,以获得所述获取的评论对应的特征量化值的步骤包括:统计各特征分词在所述获取的评论中出现的次数,其中,所述统计出的各次数被作为所述基于信息增益方式从评论样本中抽取出的特征分词的量化值。
优选的,前述的垃圾评论识别方法,其中所述构建的语言模型包括:基于最大似然估计法以及katz平滑处理的二元语言模型。
优选的,前述的垃圾评论识别方法,其中所述根据所述评论的概率与所述评论集合中的另一条评论的概率计算两条评论之间的相似度的步骤包括:根据所述评论的概率与所述评论集合中的另一条评论的概率利用KL散度计算两条评论之间的相似度。
根据本发明的另一个方面,还提供了一种垃圾评论识别装置,该装置包括:构建模型模块,用于根据从评论集合中读取出的一条评论中的分词为所述评论构建语言模型,以获得所述评论的概率;计算相似度模块,用于根据 所述评论的概率与所述评论集合中的另一条评论的概率计算两条评论之间的相似度;判别不真实模块,用于在所述相似度满足相似度要求的情况下,将所述两条评论均确定为不真实评论。
优选的,前述的垃圾评论识别装置,其中该装置还包括:获取评论模块,用于获取网络中的评论;评论过滤模块,用于在判断出所述获取的评论满足预定条件的情况下,将所述获取的评论添加在评论集合中。
优选的,前述的垃圾评论识别装置,其中所述评论过滤模块包括:第一过滤子模块,用于在根据分类模型输出的信息确定所述获取的评论不是无用评论的情况下,将所述获取的评论添加在评论集合中;或者,第二过滤子模块,用于在判断出所述获取的评论的长度超过预定长度阈值的情况下,将所述获取的评论添加在所述评论集合中;或者,第三过滤子模块,用于在根据分类模型输出的信息确定所述获取的评论不是无用评论,且在判断出所述获取的评论的长度超过预定长度阈值的情况下,将所述获取的评论添加在评论集合中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610170368.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:版面内容预留区的划分方法及装置
- 下一篇:用于分割文本的方法和设备