[发明专利]一种热门事件的挖掘方法及装置在审
申请号: | 201811484821.1 | 申请日: | 2018-12-06 |
公开(公告)号: | CN111291176A | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 曾宪鹏;杨锦娜 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9535 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 热门 事件 挖掘 方法 装置 | ||
本发明公开了一种热门事件的挖掘方法及装置,涉及数据处理技术领域,为解决现有的在生成热门事件时是基于全国范围内的新闻事件确定的,而用户无法获悉到本地发生的热门事件,导致的热门事件确定具有局限性的问题。本发明的方法包括:采集新闻数据;调用预置接口从所述新闻数据中提取出预设区域范围内的新闻数据;对所述出预设区域范围内的新闻数据进行分类;根据分类结果筛选出所述预设区域范围内的热门事件。本发明适合应用在热门事件的挖掘中。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种热门事件的挖掘方法及装置。
背景技术
随着互联网的不断发展,网络平台已经成为新闻事件传播的主要途径,如论坛、微博微信等社交平台、新闻网站等都是新闻发布或者用户发表言论的主要媒介。海量文本信息在带来商业价值的同时也给用户带来了不便,如何从海量信息中挖掘出焦点新闻事件,使得用户不错过当前值得关注的新闻,成为了广泛关注的研究点。
目前,大部分的网站在生成热门事件时,是基于全国范围内的新闻事件,根据算法或者用户搜索浏览量等确定的,也就是说全国各地用户所获悉的热门事件均是相同的。发明人在实现上述发明过程中,发现现有技术中,用户无法浏览到本地发生的热门事件,从而导致热门事件生成具有局限性的问题。
发明内容
鉴于上述问题,本发明提供一种热门事件的挖掘方法及装置,主要目的在于挖掘出各个区域内发生的热门事件以提高热门事件确定的全面性。
为解决上述技术问题,第一方面,本发明提供了一种热门事件的挖掘方法,该方法包括:
采集新闻数据;
调用预置接口从所述新闻数据中提取出预设区域范围内的新闻数据,所述预置接口中预先封装有所述预设区域对应的字段信息;
对所述预设区域范围内的新闻数据进行分类;
根据分类结果筛选出所述预设区域范围内的热门事件。
可选的,所述方法还包括:
将地域按照预设规则进行多层级划分,得到多个不同层级的地域单元,且每个上一层级的地域单元包含有多个下一层级的子地域单元;
根据所述上一层级的地域单元和所包含的任意一个所述下一层级的子地域单元生成所述预设区域对应的字段信息。
可选的,所述根据分类结果筛选出所述预设区域范围内的热门事件包括:
将分类后得到的所述预设区域范围内的多个事件按照数据量进行排序,并将预设排名内的事件确定为所述热门事件;和/或,
将所述数据量增长率超过预设阈值的事件确定为所述热门事件。
可选的,所述方法还包括:
获取用户的地理位置信息并创建与所述预设区域范围对应的用户集合,所述用户集合中包含有所述预设区域内的全部用户;
将所述热门事件在所述用户集合中进行推送。
第二方面,本发明还提供了一种热门事件的挖掘装置,该装置包括:
采集单元,用于采集新闻数据;
提取单元,用于调用预置接口从所述新闻数据中提取出预设区域范围内的新闻数据,所述预置接口中预先封装有所述预设区域对应的字段信息;
分类单元,用于对所述预设区域范围内的新闻数据进行分类;
筛选单元,用于根据分类结果筛选出所述预设区域范围内的热门事件。
可选的,所述装置还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811484821.1/2.html,转载请声明来源钻瓜专利网。