[发明专利]一种互联网新闻事件报道趋势分析方法及系统有效
申请号: | 201210004878.3 | 申请日: | 2012-01-09 |
公开(公告)号: | CN103198078A | 公开(公告)日: | 2013-07-10 |
发明(设计)人: | 梁汝峰;赵增峰;王松;刘杰;张丹;孙红娥;杨建武 | 申请(专利权)人: | 北大方正集团有限公司;北京大学;北京北大方正电子有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
地址: | 100871 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 新闻 事件 报道 趋势 分析 方法 系统 | ||
1.一种互联网新闻事件报道趋势分析方法,包括以下步骤:
(1)根据配置的新闻事件的特征信息,实时采集互联网中的新闻信息;
(2)预处理所述新闻信息,筛选出发布时间在设置的新闻事件的统计周期内的新闻信息;
(3)分析筛选出的新闻信息的正文信息,得到新闻信息的主题及主题信息;所述主题包括存在主题信息的主题和不存在主题信息的源主题;
(4)分析当前统计周期与前一统计周期的主题,得出当前统计周期与前一统计周期之间的相同主题以及各相同主题的关联信息数;
(5)根据所述关联信息数,得出转化主题;所述转化主题是指当前统计周期该相同主题的关联信息数大于或等于前一统计周期该相同主题的关联信息数;
(6)获取设定时间段内的源主题和转化主题的关联信息数,并展现源主题和转化主题的关联信息数随时间的分布趋势。
2.如权利要求1所述的互联网新闻事件报道趋势分析方法,其特征在于:步骤(1)中,所述特征信息包括新闻信息的关键词、关键词权重和关键词之间的逻辑关系;所述新闻信息包括正文信息和评论信息;所述关键词权重是指关键词在整体关键词组中的地位;所述关键词之间的逻辑关系包括与、或、非及其之间的嵌套关系,通过逻辑关系表达式表达。
3.如权利要求1所述的互联网新闻事件报道趋势分析方法,其特征在于:步骤(1)中,所述采集互联网中新闻信息包括对所述新闻信息的下载、分析、元数据的抽取。
4.如权利要求3所述的互联网新闻事件报道趋势分析方法,其特征在于:所述元数据包括正文信息元数据和评论信息元数据,所述正文信息元数据包括标题、正文、来源的网站名称、频道名称、发布时间;所述评论信息元数据包括评论正文、评论发布时间和评论作者。
5.如权利要求1~4中任一项所述的互联网新闻事件报道趋势分析方法,其特征在于:步骤(2)中,所述筛选发布时间在所设置的新闻事件的统计周期内的新闻信息的具体方法如下:
(a)筛选发布时间为新闻事件的统计周期内所采集的新闻信息;
(b)查看步骤(a)中筛选出的新闻信息是否存在主题信息,如是,则筛选完成,否则,通过设定的关键词、关键词之间的逻辑关系过滤符合条件的新闻信息。
6.如权利要求5所述的互联网新闻事件报道趋势分析方法,其特征在于:步骤(b)中,所述通过设定的关键词、关键词之间的逻辑关系过滤符合条件的新闻信息时,只包括新闻正文信息,不包括新闻评论信息。
7.如权利要求1所述的互联网新闻事件报道趋势分析方法,其特征在于:步骤(3)中,将主题按相关度由高到低排序,只保留按所述相关度排序中排名靠前的N个源主题,N≥10。
8.如权利要求1所述的互联网新闻事件报道趋势分析方法,其特征在于:步骤(5)中,得出转化主题后,将转化主题内的关联信息按与主题的相似度由高到低排序,标记相似度最高的信息作为其代表文章。
9.如权利要求1所述的互联网新闻事件报道趋势分析方法,其特征在于:步骤(6)中,通过散点图展现源主题和转化主题的关联信息数随时间的分布趋势,X轴表示主题的时间,Y轴表示主题的关联信息数。
10.如权利要求要求1或9所述的互联网新闻时间报道趋势分析方法,其特征在于:步骤(6)中,所述展现源主题的关联信息数随时间的分布趋势,包括对源主题、源主题后续相同主题、源主题关联主题和源主题后续关联主题的展现;
所述源主题后续相同主题是指第n次统计周期得出的主题都是其前一统计周期的相同主题,其中n>1;所述源主题关联主题是指与前一统计周期相同的主题;所述源主题后续关联主题是指源主题的关联主题及源主题后续相同主题的关联主题。
11.如权利要求要求1或9所述的互联网新闻时间报道趋势分析方法,其特征在于:所述展现转化主题的关联信息数随时间的分布趋势,包括对转化主题,转化主题后续相同主题、转化主题后续关联主题的展现;
所述转化主题后续相同主题是指假设第p次统计周期分析得出转化主题,由此转化主题后续第p+q次统计周期分析得出的主题都是其前一统计周期的相同主题,其中p>1,q>1;所述转化主题后续关联主题是指转化主题的关联主题及转化主题后续相同主题的关联主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京大学;北京北大方正电子有限公司,未经北大方正集团有限公司;北京大学;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210004878.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种对网页的处理方法及装置
- 下一篇:一种内存故障自动定位方法及装置