[发明专利]一种基于集成学习的线上内容热度预测方法有效

申请号：	201811295404.2	申请日：	2018-11-01
公开（公告）号：	CN109344319B	公开（公告）日：	2021-08-24
发明（设计）人：	龙飞;许美霞;李玉垒	申请（专利权）人：	中国搜索信息科技股份有限公司
主分类号：	G06F16/953	分类号：	G06F16/953;G06F16/33;G06N3/08
代理公司：	北京市盛峰律师事务所 11337	代理人：	于国富
地址：	100000 北京市大兴***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于集成学习线上内容热度预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于集成学习的线上内容热度预测方法，涉及自然语言处理领域，包括预测预料的选择与爬取；对爬取的语料进行预处理；对预处理后的语料向量化，确定热度阈值；模型训练与集成。该方法综合考虑了线上内容的话题、标题和内容质量，使得预测模型具有可扩展性；使用集成学习的方法预测线上内容热度，使得预测具有鲁棒性，且更加准确；性能相近的基础学习器进行集成，可得到较好的效果。

技术领域

本发明涉及自然语言处理领域，尤其涉及一种基于集成学习的线上内容热度预测方法。

背景技术

在自然语言处理领域，线上内容的热度预测一直是一个热门领域，因为线上内容的热度往往直接影响到相关的收益。本线上内容热度预测发明收集了大量带标记(如浏览数、回复数等)的新闻语料，利用多个模型的集成学习对其热度进行预测，并将预测结果返回给媒体编辑，可有效提升媒体编辑的工作水平。

目前对线上内容的热度预测，大多采用单一预测模型，预测精度有限，且对于热度的衡量指标多考虑阅读量信息、转发量信息、点赞量信息、评论量信息和引用量信息等，过于复杂，可能引起预测的不准确。如发明专利“一种微博话题热度预测系统及方法”，申请号201410368076.X，使用小波变换结合ARIMA回归模型进行预测，模型单一，导致可扩展性不强。发明专利“一种文章热度预测系统及预测方法”，申请号201711454719.2，使用LSTM作为预测模块，同样存在模型单一的问题，同时考虑阅读量信息、转发量信息、点赞量信息、评论量信息和引用量信息导致模型过于复杂，可能不符合实际情况，容易造成预测误差。

发明内容

本发明的目的在于提供一种基于集成学习的线上内容热度预测方法，从而解决现有技术中存在的前述问题。

为了实现上述目的，本发明采用的技术方案如下：

一种基于集成学习的线上内容热度预测方法，包括以下步骤：

S1，预测预料的选择与爬取；

S2，对爬取语料进行预处理；

S3，对预处理后的语料向量化，确定热度阈值；

S4，模型训练与集成。

优选地，所述步骤S1具体包括以下步骤：

S11，确定训练语料爬取的数据来源，选择数据来源时需要考虑数据来源的访问量，数据源与需要预测内容的相似度；

S12，确定需要爬取的内容框架，包括爬取标题和内容；

S13，确定用于预测热度的衡量参数；