[发明专利]一种新闻热点标签的生成方法及系统有效
申请号: | 201310308455.5 | 申请日: | 2013-07-22 |
公开(公告)号: | CN103336847B | 公开(公告)日: | 2016-11-30 |
发明(设计)人: | 伏峰;章正道;林胜通 | 申请(专利权)人: | 厦门市美亚柏科信息股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京恒都律师事务所 11395 | 代理人: | 邸建凯 |
地址: | 361008 福建省厦门*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 新闻 热点 标签 生成 方法 系统 | ||
技术领域
本发明涉及信息处理技术领域,具体而言,特别涉及一种新闻热点标签的生成方法及系统。
背景技术
随着互联网的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”。由于网络媒体与传统媒体在传播载体和传播方式上的不同,将导致网络舆论热点、焦点层出不穷,而这些信息的产生将对社会产生巨大影响。因此,有必要对这些热点信息的正确性及传播范围进行有效处理。
目前,针对新闻信息的分析功能有:新闻分类和预警、新闻聚合、新闻智能关联、新闻转载追踪等,而新闻事件热点标签的生成是上述分析功能的基础工作之一,例如:利用新闻热点标签作为检索关键字从而发现热点新闻;或者利用新闻热点标签生成热点新闻摘要等。
目前,实用阶段的新闻事件热点标签生成技术主要有以下两类:
1)基于统计特征的方法,该方法主要是对词元的使用频率进行统计,虽然操作简单,但是会忽略出现频率不高但对于文档具有关键意义的词语,导致新闻热点标签生成的准确性低;
2)基于词语网络图的方法,该方法根据一定规则将文档映射为词语网络,利用词语网络图计算词语的关键度,在该方法中,目前主要是将高频词语以及它们在同一窗口(也即相互邻接、在相同的句子或段落等)的共现关系映射成词语网络,但该方法需要设定的参数过多,如顶点数、边数等,因而常造成边界上的取舍问题,如果边界取舍不当,则造成新闻热点标签生成的准确性低。
针对现有技术中新闻热点标签生成准确性低的问题,目前尚未提出有效的解决方法。
发明内容
本发明的主要目的在于提供一种新闻热点标签的生成方法及系统,以解决现有技术中新闻热点标签生成准确性低的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种新闻热点标签的生成方法。
本发明的新闻热点标签的生成方法包括:提取新闻数据集中的新闻簇,其中,新闻数据集由多个新闻记录组成,一个新闻簇包括至少两个新闻记录;确定提取出的多个新闻簇中的热点新闻簇;提取热点新闻簇中各新闻记录的关键字;生成由一个新闻记录的至少两个关键字组合的组合词,其中,一个新闻记录对应一个或多个组合词;以及根据组合词的热度值生成新闻热点标签。
进一步地,提取新闻数据集中的新闻簇包括:计算新闻数据集中两个新闻记录之间的相似度;判断相似度是否大于第一预设阈值;以及若相似度大于第一预设阈值时,确定两个新闻记录属于同一新闻簇。
进一步地,计算两个新闻记录之间的相似度包括:将两个新闻记录分别进行特征化提取,得到一个新闻记录对应的第一向量和另一个新闻记录对应的第二向量;采用以下任意一个公式计算相似度:
Sim(X,Y)=(X*Y)/(||X||*||Y||),
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门市美亚柏科信息股份有限公司,未经厦门市美亚柏科信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310308455.5/2.html,转载请声明来源钻瓜专利网。