[发明专利]确定信息热点的方法及装置有效
申请号: | 201610964928.0 | 申请日: | 2016-11-04 |
公开(公告)号: | CN106570140B | 公开(公告)日: | 2018-03-02 |
发明(设计)人: | 李德彦;晋耀红;杨凯程 | 申请(专利权)人: | 中科鼎富(北京)科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三高永信知识产权代理有限责任公司11138 | 代理人: | 江崇玉 |
地址: | 100089 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 信息 热点 方法 装置 | ||
本申请要求于2016年05月26日提交中国专利局、申请号为201610354737.2、发明名称为“一种非结构化信息热点管理系统与方法”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及信息技术领域,特别涉及一种确定信息热点的方法及装置。
背景技术
在现代社会,互联网逐渐成为信息发布的主要途径。借助互联网,用户可在微博、论坛、博客等社交类网站中针对某一热门事件、热门人物或热门话题发布评论信息,在信息技术领域,该热门事件、热门人物或热门话题通常称为信息热点。由于对信息热点的评论信息反映了当前社会的舆情动态,对社会稳定及国家发展具有重要意义,因此,需要及时从海量信息中确定出信息热点,进而采用有力措施积极引导社会舆论。
现有技术在确定信息热点时,主要采用关键词检索的方法,具体过程为:从互联网上获取待处理信息;提取每个待处理信息的关键词;计算任意两个待处理信息的关键词的相似度,如果该两条待处理信息的关键词的相似度大于预设阈值,则将该两条待处理信息聚为一类,并将该关键词作为该类的类标签;如果任一类包括的信息数量大于预设数量,则将该类的类标签作为一个信息热点。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于现有技术仅根据一次聚类结果,就将信息数量满足一定条件的类作为信息热点,而实际上根据该类所确定的信息热点可能为一个伪信息热点,因此,现有技术所确定的信息热点并不准确。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种确定信息热点的方法及装置。所述技术方案如下:
一方面,提供了一种确定信息热点的方法,所述方法包括:
对待处理信息进行聚类,得到多个类;
对于任一个类,计算所述类与第一列表中每个信息热点的相似度,所述第一列表用于存储信息热点;
如果所述类与所述第一列表中任一信息热点的相似度大于第一阈值,则将所述类添加到所述信息热点对应的信息列表中;
如果所述类与所述第一列表中每个信息热点的相似度均小于所述第一阈值,则计算所述类与第二列表中每个待确认信息热点的相似度,所述第二列表用于存储待确认信息热点;
如果所述类与所述第二列表中任一待确认信息热点的相似度大于第二阈值,则将所述类添加到所述待确认信息热点对应的信息列表中,并在所述待确认信息热点满足预设条件时,将所述待确认信息热点移动到所述第一列表中。
在本发明的另一个实施例中,每个类具有一个类标签,所述计算所述类与第二列表中每个待确认信息热点的相似度之后,还包括:
如果所述类与所述第二列表中每个待确认信息热点的相似度均小于所述第二阈值,则将所述类的类标签确定为目标待确认信息热点;
将所述目标待确认信息热点添加到所述第二列表中,并在所述目标待确认信息热点满足所述预设条件时,将所述目标待确认信息热点移动到所述第一列表中。
在本发明的另一个实施例中,所述将所述类添加到所述信息热点对应的信息列表中之后,还包括:
以所述信息热点的信息量为纵轴、以时间为横轴绘制所述信息热点的变化曲线;
获取所述信息热点在当前时间内的第一信息量;
获取所述信息热点在指定时间内的第二信息量,所述指定时间与所述当前时间间隔预设时长;
根据所述第一信息量、所述第二信息量及所述预设时长,计算所述变化曲线与横轴的夹角;
根据所述变化曲线与横轴的夹角,确定所述信息热点当前的生命周期状态;
根据所述信息热点当前的生命周期状态,对所述信息热点的生命周期状态进行更新。
在本发明的另一个实施例中,所述生命周期状态包括发生状态、发展状态、爆发状态、衰弱状态及消亡状态;
所述根据所述变化曲线与横轴的夹角,确定所述信息热点当前的生命周期状态,包括:
如果所述变化曲线与横轴的夹角小于第一预设数值,则确定所述信息热点当前的生命周期状态为发生状态;
如果所述变化曲线与横轴的夹角大于所述第一预设数值小于第二预设数值,则确定所述信息热点当前的生命周期状态为发展状态;
如果所述变化曲线与横轴的夹角大于所述第二预设数值小于第三预设数值,则确定所述信息热点当前的生命周期状态为爆发状态;
如果所述变化曲线与横轴的夹角大于所述第三预设数值小于第四预设数值,则确定所述信息热点当前的生命周期状态为衰弱状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中科鼎富(北京)科技发展有限公司,未经中科鼎富(北京)科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610964928.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种内容展示方法、装置和设备
- 下一篇:云控制台服务器的动态网络存储
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置