[发明专利]热点文章识别方法有效
申请号: | 202010502429.6 | 申请日: | 2020-06-03 |
公开(公告)号: | CN111666749B | 公开(公告)日: | 2023-09-19 |
发明(设计)人: | 姚洲鹏 | 申请(专利权)人: | 杭州凡闻科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F40/30 |
代理公司: | 杭州裕阳联合专利代理有限公司 33289 | 代理人: | 姚宇吉 |
地址: | 310012 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 热点 文章 识别 方法 | ||
本发明公开了一种热点文章识别方法包含以下步骤:获取若干热点文章构成热点文章库;提取热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频构成热点词库;提取入库文章的分词并统计每个分词所对应的词频;计算入库文章的热度值;根据入库文章的热度值判定入库文章是否为热点文章。本发明的有益之处在于提供的热点文章识别方法能够根据现有的热点文章提炼出热点词库,再根据该热点词库计算新入库的入库文章的热度值,根据该热度值快速判定新入库的入库文章是否是热点文章。
技术领域
本发明涉及一种热点文章识别方法。
背景技术
随着互联网行业越来越发达,新闻工作者需要及时发现识别热点文章,从而从热点文章中得到时下大众关注的热点动态。目前,新闻工作者一般根据一些大型网站中的热点文章点击排行榜识别时下较为热点的文章。然而,这种方法依赖于网站对用户点击数据的统计后才能得到热点文章数据,在时效上比较滞后。因为经过大量用户点击的数据统计出的热点文章中的热点新闻已经被大多数用户查看过了,从这些热点文章中提炼出的热点新闻的价值较小。因此,亟需一种无需根据各大网站的点击数据也能够快速识别热点文章的方法。
发明内容
为解决现有技术的不足,本发明提供了一种可以解决上述问题的热点文章识别方法。
为了实现上述目标,本发明采用如下的技术方案:
一种热点文章识别方法,包含以下步骤:
获取若干热点文章构成热点文章库;
提取热点文章库中的每一份热点文章的分词并统计每个分词所对应的词频构成热点词库;
提取入库文章的分词并统计每个分词所对应的词频;
计算入库文章的热度值;
根据入库文章的热度值判定入库文章是否为热点文章。
进一步地,计算入库文章的热度值的具体方法为:
通过下述公式计算得到入库文章的每个分词的分词热度值,
score=(subsetFreq/subsetSize-superFreq/superSize)*((subsetFreq/subsetSize)/(superFreq/superSize))*natureBoost*fieldBoost,
其中,score表示分词热度值,subsetFreq表示入库文章的分词中的一个分词的词频,subsetSize表示全部入库文章的分词的词频总和,superFreq表示入库文章的分词中的该一个分词在热点词库中对应的词频,superSize表示全部热点词库中的分词的词频总和,natureBoost表示入库文章的分词的词性权重,fieldBoost表示入库文章的分词的字段权重;
对计算得到的每个分词的分词热度值进行平均得到入库文章的热度值。
进一步地,根据入库文章的分词的词频从入库文章的分词中选择部分词频较大的分词;
在计算入库文章的热度值时仅针对挑选出的分词进行计算。
进一步地,根据入库文章的分词的词频从入库文章的分词中选择排名前100的分词。
进一步地,获取natureBoost的具体方法为:
根据入库文章的分词在入库文章中的词性求取平均值。
进一步地,获取fieldBosst的具体方法为:
根据入库文章的分词在入库文章中的字段求取平均值。
进一步地,根据入库文章的热度值判定入库文章是否为热点文章的具体方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州凡闻科技有限公司,未经杭州凡闻科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010502429.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种农作物入库转运装置
- 下一篇:等离子体处理装置