[发明专利]文章热度的预测方法和装置有效
申请号: | 201510887683.1 | 申请日: | 2015-12-04 |
公开(公告)号: | CN105488193B | 公开(公告)日: | 2020-08-25 |
发明(设计)人: | 许祥 | 申请(专利权)人: | 杭州数梦工场科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 张大威 |
地址: | 310024 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文章 热度 预测 方法 装置 | ||
本发明提出一种文章热度的预测方法和装置,上述文章热度的预测方法包括:根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量,所述第一矢量的维度等于所述关键词的个数,所述第一矢量中各维度的值分别对应每个关键词在所述用户最新发表的文章中的出现情况;通过聚类模型对所述第一矢量进行聚类判断,获得所述用户最新发表的文章所属的类别;通过所述用户最新发表的文章所属类别的回归模型对所述用户最新发表的文章的热度值进行预测。本发明在对用户发表的文章进行聚类判断之后,再根据上述文章所属的类别对上述文章的热度进行预测,提高了文章热度预测的准确度。
技术领域
本发明涉及文本分析技术领域,尤其涉及一种文章热度的预测方法和装置。
背景技术
互联网时代,每个人都可以在互联网上各抒己见。随之而来的问题是一些不法分子利用网络舆论导向来达到其个人目的。所以,需要对网络舆论进行一些监测及预测,防止网络舆论被不法分子利用。文章热度是衡量一篇网络文章、博客等各种网络文字在一段时间内的阅读、评论以及转发等情况,描述了网络文字的影响力,是舆情分析的重要一环。
一般来说,常规的文章热度预测是通过搜集一段时间内的历史文章数据,根据历史数据进行大数据分析,使用回归算法对文章的热度进行模型拟合,将得到的模型用于新文章的热度预测分析。
但是,由于文章内容的多样性,简单使用回归模型进行预测,获得的文章热度的准确度较低,不利于网络舆论的预测。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种文章热度的预测方法。该方法在对用户发表的文章进行聚类判断之后,再根据上述文章所属的类别对上述文章的热度进行预测,提高了文章热度预测的准确度。
本发明的第二个目的在于提出一种文章热度的预测装置。
为了实现上述目的,本发明第一方面实施例的文章热度的预测方法,包括:根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量,所述第一矢量的维度等于所述关键词的个数,所述第一矢量中各维度的值分别对应每个关键词在所述用户最新发表的文章中的出现情况;通过聚类模型对所述第一矢量进行聚类判断,获得所述用户最新发表的文章所属的类别;通过所述用户最新发表的文章所属类别的回归模型对所述用户最新发表的文章的热度值进行预测。
本发明实施例的文章热度的预测方法,根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为上述用户最新发表的文章生成第一矢量,然后通过聚类模型对上述第一矢量进行聚类判断,获得上述用户最新发表的文章所属的类别,最后通过上述用户最新发表的文章所属类别的回归模型对上述用户最新发表的文章的热度值进行预测,从而可以实现在对用户发表的文章进行聚类判断之后,再根据上述文章所属的类别对上述文章的热度值进行预测,提高了文章热度预测的准确度。
为了实现上述目的,本发明第二方面实施例的文章热度的预测装置,包括:生成模块,用于根据用户在当前时刻之前的预定时间长度内发表的历史文章的关键词,为所述用户最新发表的文章生成第一矢量,所述第一矢量的维度等于所述关键词的个数,所述第一矢量中各维度的值分别对应每个关键词在所述用户最新发表的文章中的出现情况;聚类模块,用于通过聚类模型对所述生成模块生成的第一矢量进行聚类判断,获得所述用户最新发表的文章所属的类别;预测模块,用于通过所述用户最新发表的文章所属类别的回归模型对所述用户最新发表的文章的热度值进行预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州数梦工场科技有限公司,未经杭州数梦工场科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510887683.1/2.html,转载请声明来源钻瓜专利网。