[发明专利]一种垃圾信息判断方法和装置以及一种服务器集群有效
申请号: | 201710558595.6 | 申请日: | 2017-06-30 |
公开(公告)号: | CN107256214B | 公开(公告)日: | 2020-09-25 |
发明(设计)人: | 宋时雨 | 申请(专利权)人: | 联想(北京)有限公司 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/279;G06F40/289;G06Q50/00 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 安之斐;李文娟 |
地址: | 100085*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 垃圾 信息 判断 方法 装置 以及 服务器 集群 | ||
本发明的实施例提供了一种垃圾信息判断方法和装置以及一种服务器集群,所述垃圾信息判断方法包括:获取特征词汇表,其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到;接收待判断的目标信息;将所述目标信息与所述特征词汇表进行比较,以判断所述目标信息是否为垃圾信息。
技术领域
本发明的实施例涉及通信技术领域,尤其涉及一种垃圾信息判断方法和装置以及一种服务器集群。
背景技术
网络社区及论坛的兴起由来已久,网民们可以在论坛上针对自己感兴趣的事物发表观点,为了及时获取用户对于自己使用的某种产品或服务的看法,产品或服务提供商可以借助舆情分析系统来挖掘网民的情感倾向及观点态度。然而,网民评论的内容往往质量良莠不齐,并且会掺杂有大量与观点表达无关的评论,这部分评论语料不仅浪费系统资源,还将影响舆情分析结论的准确性。
在现有技术中,一般基于Logistic回归来识别网络社区中的垃圾评论。具体地,这一方案采用人为标注的垃圾评论与合法评论作为训练数据,利用向量空间模型来表示每条评论,并基于Logistic算法训练垃圾评论识别模型。但是,该方案得到的模型对垃圾评论的识别效果很大程度上依赖于人为标注的评论语料,由于人为标注数据的成本较大,所以很难得到较为充足的标注数据;此外,即便能够获得充足的标注数据,但由于网络用语总在变化,用于训练模型的数据同样需要不断更新,这也极大增加了数据标注的难度。
因此,需要一种能够准确有效地判断垃圾信息的方法和装置。
发明内容
根据本发明的一个方面,提供了一种垃圾信息判断方法,包括:获取特征词汇表,其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到;接收待判断的目标信息;将所述目标信息与所述特征词汇表进行比较,以判断所述目标信息是否为垃圾信息。
根据本发明的另一个方面,提供了一种垃圾信息判断装置,包括:获取单元,配置为获取特征词汇表,其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到;接收单元,配置为接收待判断的目标信息;判断单元,配置为将所述目标信息与所述特征词汇表进行比较,以判断所述目标信息是否为垃圾信息。
根据本发明的再一方面,提供了一种服务器集群,包括:至少一个处理器;至少一个存储器;和存储在所述至少一个存储器的一个或多个存储器中的计算机程序指令,在所述计算机程序指令被所述至少一个处理器中的一个或多个处理器运行时,使得所述一个或多个处理器执行以下步骤:获取特征词汇表,其中所述特征词汇表通过对预先获取的多条样本信息之间进行文本相似度计算而得到;接收待判断的目标信息;将所述目标信息与所述特征词汇表进行比较,以判断所述目标信息是否为垃圾信息。
在根据本发明提供的垃圾信息判断方法和装置以及服务器集群中,可以根据样本信息的文本相似度计算获取特征词汇表,并根据特征词汇表的信息判断目标信息是否为垃圾信息。本发明提供的垃圾信息判断方法能够准确判断垃圾信息,并且能够及时高效地对垃圾信息进行更新,以获取更加精确的舆情分析数据,节约系统资源。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示意性图示了根据本发明实施例的垃圾信息判断方法的流程图;
图2示意性图示了根据本发明实施例的垃圾信息判断装置的结构框图;
图3示意性图示了根据本发明实施例的服务器集群的结构框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于联想(北京)有限公司,未经联想(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710558595.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置