[发明专利]网络热点挖掘方法及装置有效
申请号: | 201210346827.9 | 申请日: | 2012-09-18 |
公开(公告)号: | CN102831248A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 林英杰;马良;陈强 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 工业和信息化部电子专利中心 11010 | 代理人: | 梁军 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 热点 挖掘 方法 装置 | ||
1.一种网络热点挖掘装置,其特征在于,包括:
分类存储模块,适于采集网络数据,对所述网络数据进行分类和分类存储;
过滤提取模块,适于根据预先设置的过滤规则分别对各类别下的网络数据进行过滤,并从各类别下过滤后的网络数据中提取中心词;
排序组合模块,适于对从同一网络数据中提取的所述中心词进行排序,并将同一网络数据的排序后的中心词进行组合,获得各类别下的各个网路数据的中心词组;
热点统计模块,适于统计所述中心词组在所属类别下的出现次数,分别获取各类别下的网络热点词组并进行分类展示。
2.如权利要求1所述的装置,其特征在于,所述网络数据进一步包括:文本标题、与所述文本标题相对应的文章内容、以及与所述文本标题相对应的文本属性。
3.如权利要求1或2所述的装置,其特征在于,所述文本属性进一步包括以下至少之一:文本对应的统一资源定位符URL、文本的来源论坛/博客、文本的来源版块、文本的发布时间、文本作者、文本的回复数、以及文本的浏览数。
4.如权利要求1至3中任一项所述的装置,其特征在于,所述分类存储模块进一步适于:
利用文本自动分类技术根据所述文章内容对所述网络数据进行文本分类,获取与所述网络数据对应的分类标签,并将对应的文本标题、对应的分类标签、以及对应的文本属性存储到引擎中;
每隔预定时间对所述引擎进行一次网络数据采集,并按照所述分类标签将采集到的网络数据分类存放于指定服务器的不同XML文件中。
5.如权利要求1至4中任一项所述的装置,其特征在于,所述过滤规则进一步包括以下至少之一:
对文本标题不符合预定字数的网络数据进行删除;
对发布时间不符合规定的网络数据进行删除;
对URL中含有预定域名的网络数据进行删除,其中,所述预定域名为预先设置的域名黑名单中的域名;或者,对URL中含有预定域名的网络数据进行保留;
对来源版块为预定版块的网络数据进行删除,其中,所述预定版块为预先设置的版块黑名单中的版块;或者,对来源版块为预定版块的网络数据进行保留;
对来源不符合规定的网络数据进行删除,其中,所述来源包括:论坛、博客、或者全部帖子;
对回复数不符规定的网络数据进行删除;
对浏览数不符合规定的网络数据进行删除;
对作者不符合规定的网络数据进行删除;以及
对网络数据进行消重处理。
6.如权利要求1至5中任一项所述的装置,其特征在于,所述过滤提取模块进一步适于:采用分词技术分别从各类别下过滤后的网络数据中提取中心词之前,根据预先设置的前缀词库对所述文本标题进行前缀过滤。
7.如权利要求1至6中任一项所述的装置,其特征在于,所述过滤提取模块进一步适于:采用分词技术分别对各类别下过滤后的文本标题进行分词,获取分词结果,并将所述分词结果作为所述中心词。
8.如权利要求1至7中任一项所述的装置,其特征在于,所述排序组合模块进一步适于:对从同一网络数据中提取的所述中心词进行排序之前,根据预先设置的常用词库对提取的所述中心词中的常用词进行过滤。
9.如权利要求1至8中任一项所述的装置,其特征在于,所述排序组合模块进一步适于:根据将属于同一个文本标题的排序后的中心词进行组合,其中,n为属于同一个文本标题的中心词的总个数,r≤n且2≤r≤5。
10.如权利要求1至8中任一项所述的装置,其特征在于,所述排序组合模块进一步适于:将同一网络数据的排序后的中心词进行组合,获得各类别下的各个网路数据的中心词组之后,根据预先设置的垃圾词库对所述中心词组中的垃圾词组进行过滤。
11.如权利要求1至10中任一项所述的装置,其特征在于,所述热点统计模块进一步适于:统计所述中心词组在所属类别下不同文本标题中的出现次数,将所述出现次数大于预定阈值的中心词组按照预定顺序进行排列,分别获取各类别下的网络热点词组。
12.如权利要求1至11中任一项所述的装置,其特征在于,所述热点统计模块进一步适于:对同一类别下相同的网络热点词组进行合并;计算各类别下的网络热点词组所对应的热度值;搜索各类别下网络热点词组所对应的热点事件的链接。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210346827.9/1.html,转载请声明来源钻瓜专利网。