[发明专利]互联网事件分析方法与装置有效
申请号: | 201310084577.0 | 申请日: | 2013-03-15 |
公开(公告)号: | CN103188347A | 公开(公告)日: | 2013-07-03 |
发明(设计)人: | 罗峰;黄苏支;李娜 | 申请(专利权)人: | 亿赞普(北京)科技有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F17/30 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 兰淑铎 |
地址: | 100081 北京市海淀区南大街东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 事件 分析 方法 装置 | ||
技术领域
本发明涉及网络技术领域,特别是涉及一种互联网事件分析方法与装置。
背景技术
网络舆情是通过互联网传播的、公众对现实生活中某些热点、焦点问题所持的有较强影响力、倾向性的言论和观点,主要通过微博、BBS论坛、博客、新闻跟贴、转贴等实现并加以强化。由于互联网具有虚拟性、隐蔽性、发散性、渗透性和随意性等特点,越来越多的网民乐意通过这种渠道来表达观点、传播思想。网络舆情是一股强大的舆论力量,会反作用于热点事件并对社会发展和事态进程产生一定的影响。如果引导不善,负面的网络舆情将对社会公共安全形成较大威胁。
网络上的互联网事件是网络舆情体现的基本要素,对互联网事件的管理是实现网络舆情管理的重要的环节。目前,对互联网事件的管理主要是对互联网事件相关内容和数据的收集,而无法进行更深层次地分析、防止互联网事件发展,给出合理的应对措施,从而对互联网事件相关者造成损失或不良影响。
发明内容
本发明提供了一种互联网事件分析方法与装置,以解决现有技术无法对互联网事件进行更深层次地分析、防止互联网事件发展,给出合理的应对措施的问题。
为了解决上述问题,本发明公开了一种互联网事件分析方法,包括:根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的统一资源定位符URL的信息和所述正常用户的用户标识信息;根据所述URL的信息,获取所述URL对应的网页正文,并对所述网页正文进行热点词提取;根据提取的所述热点词,从获取的所述网页正文中提取出互联网事件;获取访问所述互联网事件的所述正常用户的用户标识信息;根据所述用户标识信息和设置的人群分组样本库,分别确定所述正常用户所在的人群分组,获取各个所述人群分组的属性信息,其中,所述人群分组样本库包括多个人群分组的信息,每个人群分组包括的用户标识信息,和每个人群分组的属性信息;根据获取的所述各个人群分组的属性信息,确定所述互联网事件的事件人群信息。
优选地,所述根据提取的所述热点词,从获取的所述网页正文中提取出互联网事件的步骤包括:根据提取的所述热点词,从获取的所述网页正文中提取出至少一组相同主题的互联网事件的变化事件;将每组所述变化事件作为与本组主题相对应的单个互联网事件。
优选地,所述获取访问所述互联网事件的所述正常用户的用户标识信息的步骤包括:根据所述互联网事件对应的所有变化事件,确定各个所述变化事件对应的URL;根据过滤后的所述全网网络访问日志信息,确定访问所述各个变化事件对应的URL的正常用户的用户标识信息。
优选地,在所述根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的URL的信息和所述正常用户的用户标识信息的步骤之前,还包括:获取用户的全网网络访问日志信息;对所述用户的全网网络访问日志信息进行过滤,去除非正常用户的全网网络访问日志信息,获得所述正常用户的全网网络访问日志信息,其中,所述非正常用户包括以下至少之一:爬虫用户、非正常域名用户、无法识别的用户。
优选地,所述对所述网页正文进行热点词提取的步骤包括:对所述网页正文进行词组划分和提取操作;计算提取出的词组的词频,并判断所述词频是否满足设定阈值;提取出满足所述设定阈值的词组作为所述热点词。
为了解决上述问题,本发明还公开了一种互联网事件分析装置,包括:第一获取模块,用于根据正常用户的全网网络访问日志信息,获取所述正常用户访问的网站的统一资源定位符URL的信息和所述正常用户的用户标识信息;第一提取模块,用于根据所述URL的信息,获取所述URL对应的网页正文,并对所述网页正文进行热点词提取;第二提取模块,用于根据提取的所述热点词,从获取的所述网页正文中提取出互联网事件;第二获取模块,用于获取访问所述互联网事件的所述正常用户的用户标识信息;第三获取模块,用于根据所述用户标识信息和设置的人群分组样本库,分别确定所述正常用户所在的人群分组,获取各个所述人群分组的属性信息,其中,所述人群分组样本库包括多个人群分组的信息,每个人群分组包括的用户标识信息,和每个人群分组的属性信息;确定模块,用于根据获取的所述各个人群分组的属性信息,确定所述互联网事件的事件人群信息。
优选地,所述第二提取模块,用于根据提取的所述热点词,从获取的所述网页正文中提取出至少一组相同主题的互联网事件的变化事件;将每组所述变化事件作为与本组主题相对应的单个互联网事件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿赞普(北京)科技有限公司,未经亿赞普(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310084577.0/2.html,转载请声明来源钻瓜专利网。