[发明专利]垃圾评论识别方法和装置在审
申请号: | 201610170368.1 | 申请日: | 2016-03-23 |
公开(公告)号: | CN107229608A | 公开(公告)日: | 2017-10-03 |
发明(设计)人: | 刘立佳 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙)11370 | 代理人: | 朱海波 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垃圾 评论 识别 方法 装置 | ||
1.一种垃圾评论识别方法,其中,所述方法包括以下步骤:
根据从评论集合中读取出的一条评论中的分词为所述评论构建语言模型,以获得所述评论的概率;
根据所述评论的概率与所述评论集合中的另一条评论的概率计算两条评论之间的相似度;
在所述相似度满足相似度要求的情况下,将所述两条评论均确定为不真实评论。
2.根据权利要求1所述的方法,其中,所述方法还包括:
获取网络中的评论;
在判断出所述获取的评论满足预定条件的情况下,将所述获取的评论添加在评论集合中。
3.根据权利要求2所述的方法,其中,所述在判断出所述获取的评论满足预定条件的情况下,将所述获取的评论添加在评论集合中的步骤包括:
在根据分类模型输出的信息确定所述获取的评论不是无用评论的情况下,将所述获取的评论添加在评论集合中;或者
在判断出所述获取的评论的长度超过预定长度阈值的情况下,将所述获取的评论添加在所述评论集合中;或者
在根据分类模型输出的信息确定所述获取的评论不是无用评论,且在判断出所述获取的评论的长度超过预定长度阈值的情况下,将所述获取的评论添加在评论集合中。
4.根据权利要求3所述的方法,其中,所述根据分类模型输出的信息确定所述获取的评论不是无用评论的步骤包括:
将所述获取的评论进行特征量化处理,以获得所述获取的评论对应的特征量化值;
将所述评论对应的特征量化值提供给逻辑回归分类模型;
根据所述逻辑回归分类模型输出的概率值判断所述获取的评论是否为无用评论。
5.根据权利要求4所述的方法,其中,所述获取的评论对应的特征量化值包括:表征评论与相应产品类型的产品特征之间的相似度的量化值、表征评论中的非产品评价部分与评论之间比例的量化值、表征评论中是否包含有超链接的量化值以及表征评论中的疑问语句与评论之间比例的量化值中的至少一个。
6.根据权利要求5所述的方法,其中,所述将所述获取的评论进行特征量化处理,以获得所述获取的评论对应的特征量化值的步骤包括:
对所述获取的评论的各分词进行去除停用词处理;
计算去除停用词之后的各分词的词频逆向文件频率TF-IDF值;
根据所述各分词的TF-IDF值和预先设定的相应产品类型的各产品特征词的权重值进行余弦相似度计算,其中,所述计算出的余弦相似度被作为所述表征评论与相应产品类型的产品特征之间的相似度的量化值。
7.根据权利要求5所述的方法,其中,所述将所述获取的评论进行特征量化处理,以获得所述获取的评论对应的特征量化值的步骤包括:
根据预先设置的情感词集合以及非产品信息集合将所述获取的评论中包含有情感词以及非产品信息的语句确定为非产品评价语句;
计算所述获取的评论中的非产品评价语句数量与所述获取的评论的总语句数量之间的比例,其中,所述计算出的比例被作为所述表征评论中的非产品评价部分与评论之间比例的量化值。
8.根据权利要求5所述的方法,其中,所述将所述获取的评论进行特征量化处理,以获得所述获取的评论对应的特征量化值的步骤包括:
在判断出所述获取的评论中包含有超链接的情况下,为所述获取的评论设置超链接标识,否则,为所述获取的评论设置非超链接标识,其中,所述超链接标识和非超链接标识为所述表征评论中是否包含有超链接的量化值。
9.根据权利要求5所述的方法,其中,所述将所述获取的评论进行特征量化处理,以获得所述获取的评论对应的特征量化值的步骤包括:
根据预先设置的疑问词集合将所述获取的评论中包含有疑问词的语句确定为疑问句;
计算所述获取的评论中的疑问句数量与所述获取的评论的总语句数量之 间的比例,其中,所述计算出的比例被作为所述表征评论中的疑问语句与评论之间比例的量化值。
10.根据权利要求5所述的方法,其中,所述获取的评论对应的特征量化值还包括:基于信息增益方式从评论样本中抽取出的特征分词的量化值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610170368.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:版面内容预留区的划分方法及装置
- 下一篇:用于分割文本的方法和设备