[发明专利]一种互联网新闻事件报道趋势分析方法及系统有效
申请号: | 201210004878.3 | 申请日: | 2012-01-09 |
公开(公告)号: | CN103198078A | 公开(公告)日: | 2013-07-10 |
发明(设计)人: | 梁汝峰;赵增峰;王松;刘杰;张丹;孙红娥;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 新闻 事件 报道 趋势 分析 方法 系统 | ||
技术领域
本发明涉及互联网信息分析技术领域,具体涉及一种互联网新闻事件报道趋势分析方法及系统。
背景技术
互联网的产生带来了人类传播方式的革命性飞跃,正在成为信息社会的基本通信工具。尤其是在重大事件发生时,越来越多的人首先通过互联网获取信息、发表看法,互联网已成为各种信息的集散地和不可忽视的重要舆论阵地。
以北京为例,据初步统计,2011年以前,北京地区互联网的站点数量已近26万个;网民人数达402万人;目前北京地区涉及网络新闻传播的网站每天约登载新闻3万条、更新帖文30万条、发送手机短信新闻3千条;所有网站每天的页面浏览量达10亿页次、访问者超过1亿人次。
综上所述,互联网信息为爆炸式增长,政府、企业、个人各个层面的用户对互联网信息越来越关注,同时也希望可以快速、有效地在互联网中找到所需的信息。主题检测技术即可实时地从海量信息中分析出主题,这样用户便可以通过对主题的浏览及分析,从而了解海量信息中的内容。
目前对已知新闻事件发展趋势的分析方法,一种是通过全文检索技术实现分析新闻事件的发展趋势,此种方法无法了解事件的主题信息。另一种是通过主题检测技术实现,此种方法的数据来源目前都限定在新闻、论坛、博客等信息中,未对数据来源进行进一步的筛选工作,并且也没有在分析中体现引起主题分裂的关键主题,及相关具有代表性的热点新闻信息。
发明内容
针对现有技术中存在的缺陷,本发明所要解决的技术问题是提供一种互联网新闻事件报道趋势分析方法及系统,该方法及系统能够通过主题及相关报道数量变化展示新闻事件随时间发展的分布趋势,并通过主题关系、转载量及评论数分析分布趋势中的热点新闻主题。
为了解决上述技术问题,本发明采用的技术方案如下:
一种互联网新闻事件报道趋势分析方法,包括以下步骤:
(1)根据配置的新闻事件的特征信息,实时采集互联网中新闻信息;
(2)预处理所述新闻信息,筛选出发布时间在设置的新闻事件的统计周期内的新闻信息;
(3)分析筛选出的新闻信息的正文信息,得到新闻信息的主题及主题信息;所述主题包括存在主题信息的主题和不存在主题信息的源主题;
(4)分析当前统计周期与前一统计周期的主题,得出当前统计周期与前一统计周期之间的相同主题以及各相同主题的关联信息数;
(5)根据所述关联信息数,得出转化主题;所述转化主题是指当前统计周期该相同主题的关联信息数大于或等于前一统计周期该相同主题的关联信息数;
(6)获取设定时间段内的源主题和转化主题的关联信息数,并展现源主题和转化主题的关联信息数随时间的分布趋势。
一种互联网新闻事件报道趋势分析系统,包括用于根据新闻事件的特征信息实时采集互联网中新闻信息的信息采集装置;
用于筛选出发布时间在设置的新闻事件的统计周期内的新闻信息的数据预处理装置;
用于分析筛选出的新闻信息的正文信息,得到新闻信息的主题及主题信息的主题检测装置;
用于分析并得出当前统计周期与前一统计周期之间的相同主题以及各相同主题的关联信息数的主题关系分析装置;
用于根据当前统计周期与前一统计周期之间相同主题的关联信息数,得出转化主题的转化主题分析装置;
用于获取并展现设定时间段内源主题和转化主题的关联信息数随时间的分布趋势的分布趋势展现装置。
本发明所述方法及系统,以互联网信息的信息采集、新闻信息聚类、信息检索系统为基础,对已知互联网中的新闻事件,计算并分析新闻事情的相关新闻主题、相关新闻报道转载量及其相关评论数,通过主题及相关报道数量变化展示新闻事件随时间发展的分布趋势;并通过主题关系、转载量及评论数分析分布趋势中热点新闻的主题,并以图表方式直观的展现,使用户更好地了解、掌握了互联网新闻事件的传播规律。
附图说明
图1是具体实施方式中互联网新闻事件报道趋势分析系统的结构框图;
图2是具体实施方式中互互联网新闻事件报道趋势分析方法的流程图。
具体实施方式
下面结合说明书附图与具体实施方式对本发明做进一步的详细说明。
如图1所示,本实施方式中互联网新闻事件报道趋势分析系统包括信息采集装置11、数据预处理装置12、主题检测装置13、主题关系分析装置14、转化主题分析装置15和分布趋势展现装置16。其中,数据预处理装置12包括数据初步筛选模块121和数据再次筛选模块122。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210004878.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种对网页的处理方法及装置
- 下一篇:一种内存故障自动定位方法及装置