[发明专利]热点新闻的检测方法、装置及电子设备在审
申请号: | 201711271015.1 | 申请日: | 2017-12-05 |
公开(公告)号: | CN107944001A | 公开(公告)日: | 2018-04-20 |
发明(设计)人: | 郑强 | 申请(专利权)人: | 北京金山安全软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙)11413 | 代理人: | 马敬,项京 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热点新闻 检测 方法 装置 电子设备 | ||
技术领域
本发明涉及计算机应用技术领域,特别是涉及一种热点新闻的检测方法、装置及电子设备。
背景技术
随着移动互联网飞速发展,用户获取新闻的途径也从传统纸媒与门户网站,过渡到以各种移动新闻聚合的应用为主,这样的应用提供的内容具有及时、全面且深度契合用户兴趣等特点,其中热点新闻类别是其重要的组成部分,热点新闻类别主要为广大用户提供最新的热门、重大新闻等,并且热点新闻类别在提高用户留存度、活跃度、参与度起到非常重要的作用,因此对热点新闻检测的准确性与时效性也就成了重中之重。
目前现有的热点新闻的检测方法主要为如下两种方式:
方式一,基于人工监控的方式来检测热点新闻。该方式主要是从业人员主观的向用户推送新闻。然而,该方式需要大量人工,成本较高,并且会因为不专业的从业人员造成热点新闻的迟发、错误、遗漏等问题,导致检测出的热点新闻的准确率较低。
方式二,基于用户的点击反馈方式来自动对热点新闻进行检测。该方式主要是依据在一段时间内各新闻的点击率是否有较快速的上升来检测该段时间内的热点新闻。该方式相较于方式一具有成本低廉的优势。然而,该方式常常会倾向于将一些标题党、吸引点击的一些内容识别为热点新闻内容,这一类内容通常都会有大量的用户点击量,但其不是真正的热点新闻,导致检测出的热点新闻的准确率较低。另外,该方式在实施过程中需要搜集应用推送给用户的多个新闻,并获取这些新闻在一段时间内的点击量,最后对点击量进行统计找出热点新闻,耗时较长,导致这样的热点新闻时效性较低。
发明内容
本发明实施例的目的在于提供一种热点新闻的检测方法、装置及电子设备,以提高热点新闻检测的准确性与时效性。具体技术方案如下:
第一方面,提供了一种热点新闻的检测方法,该方法可以包括:
确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重,每个待检测新闻组包括记载同一事件的新闻,第一发布权重表征待检测新闻组中新闻的发布者特征,第二发布权重表征待检测新闻组中新闻的发布时间特征;
针对每个待检测新闻组,基于该待检测新闻组的第一发布权重与第二发布权重,确定该待检测新闻组的热度值;
基于多个待检测新闻组的热度值,从多个待检测新闻组中,选取出热点新闻组,热度值越大越被优先选取;
将选取的热点新闻组中的新闻确定为热点新闻。
在一个可选的示例中,确定多个待检测新闻组中每个待检测新闻组的第一发布权重和第二发布权重之前,还包括:基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对多条待分组新闻进行分组,得到多个待检测新闻组。
在一个可选的示例中,基于获取的多条待分组新闻中每条待分组新闻的多个关键词的权重序列,采用相似度运算,对多条待分组新闻进行分组,得到多个待检测新闻组,包括:
步骤A:获取多条待分组新闻;
步骤B:提取多条待分组新闻中第一待分组新闻的多个关键词和多条待分组新闻中第二待分组新闻的多个关键词;
步骤C:获取降序排列的第一待分组新闻的多个关键词的权重序列和第二待分组新闻的多个关键词的权重序列;
步骤D:从排序后的第一待分组新闻的权重序列和排序后的第二待分组新闻的权重序列中,分别选取前预设数量个权重组成的第一权重序列和第二权重序列;
步骤E:将第一权重序列和第二权重序列,采用相似度运算,得到第一权重序列和第二权重序列的相似值;
步骤F:当相似值不大于预设相似阈值时,创建第一待检测新闻组和第二待检测新闻组,第一待检测新闻组包括第一待分组新闻,第二待检测新闻组包括第二待分组新闻,第一待检测新闻组和第二待检测新闻组为当前待检测新闻组;
步骤G:当相似值大于预设相似阈值时,创建第三待检测新闻组,第三待检测新闻组包括第一待分组新闻和第二待分组新闻,第三待检测新闻组为当前待检测新闻组;
步骤H:提取多条待分组新闻中第三待分组新闻的多个关键词,第三待分组新闻为在多条待分组新闻中未被分组的新闻;
步骤I:获取降序排列的第三待分组新闻的多个关键词的权重序列和每个当前待检测新闻组的权重序列,每个当前待检测新闻组的多个关键词的权重序列为每个当前待检测新闻组中的新闻的多个关键词的权重序列;
步骤J:从排序后的第三待分组新闻的权重序列和排序后的每个当前待检测新闻组的权重序列中,选取前预设数量个权重组成的第三权重序列和第四权重序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山安全软件有限公司,未经北京金山安全软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711271015.1/2.html,转载请声明来源钻瓜专利网。