[发明专利]一种微信文章真实阅读率的预测方法、装置及设备在审
| 申请号: | 201910770567.X | 申请日: | 2019-08-20 |
| 公开(公告)号: | CN110570025A | 公开(公告)日: | 2019-12-13 |
| 发明(设计)人: | 王新乐;薛睿蓉 | 申请(专利权)人: | 精硕科技(北京)股份有限公司 |
| 主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06F16/2458;G06N20/00 |
| 代理公司: | 11262 北京安信方达知识产权代理有限公司 | 代理人: | 王康;栗若木 |
| 地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 静态数据 机器学习模型 时间序列数据 特征数据 阅读 预测 装置及设备 人工筛选 时间敏感 数据维度 特征筛选 提取特征 泛化性 工程化 构建 监测 申请 | ||
一种微信文章真实阅读率的预测方法、装置及设备,其中,所述方法包括:根据微信文章的静态数据和时间序列数据提取特征数据;根据所述特征数据构建机器学习模型;采用所述机器学习模型对微信文章真实阅读率进行预测。本申请实施例结合静态数据和时间序列数据,即利用了静态数据,又使用时间序列数据扩充了特征,弥补了静态数据对监测时间敏感的缺点;而且使用了一套特征工程化方法,提取了大量特征,扩充了数据维度,即降低了人工筛选特征的成本,又提高了模型的泛化性,通过特征工程提取海量特征数据,用机器学习模型进行特征筛选,减少人为经验的判断,有效提高真实阅读率的预测精度。
技术领域
本文涉及社交平台领域,尤指一种微信文章真实阅读率的预测方法、装置、设备和计算机可读存储介质。
背景技术
随着网络的飞速发展,把生活建立在数据流量基础上的人越来越多。流量的影子无处不在,数据流量成为社会信息流的重要支撑。对于广告主而言流量更是具有极大的商业价值。而在社交平台上进行商业化投放,如何识别KOL(Key Opinion Leader,关键意见领袖)的流量引导能力,是广告主进行商业化投放所要解决的重要难题。
流量具有的巨大价值也诱发各种流量造假的行为,使得判断KOL的影响力变得愈发困难。传统的方法用粉丝量来判断一个KOL的影响力,这种简单粗暴的方法随着注册虚假账号刷流量行为的出现效果也越来越差。另外一个非常普遍的方法则是用转评赞来判断一篇帖子的热度,然而转评赞数据很容易因恶意刷流量造假,其可信度也很难评估。因此,亟待提出一种有效的评估手段能够去除数据的水分从而帮助广告主进行广告投放决策。
发明内容
本申请提供了一种微信文章真实阅读率的预测方法、装置、设备和计算机可读存储介质,以提高真实阅读率的预测精度。
本申请实施例提供了一种微信文章真实阅读率的预测方法,包括:
根据微信文章的静态数据和时间序列数据提取特征数据;
根据所述特征数据构建机器学习模型;
采用所述机器学习模型对微信文章真实阅读率进行预测。
在一种示例性的实施例中,所述根据微信文章的静态数据提取特征数据,包括如下至少之一:
对所述静态数据中的分类变量进行独热编码,将所述分类变量转换为数值向量,将所述数值向量作为特征数据;
提取所述静态数据中的数值变量,将所述数值变量作为特征数据;
提取所述静态数据中的数值变量,根据所述数值变量构造特征数据。
在一种示例性的实施例中,所述根据微信文章的时间序列数据提取特征数据,包括:
采用高通HP滤波的方式对所述时间序列数据进行处理;
基于HP滤波处理的结果构造特征数据。
在一种示例性的实施例中,所述采用HP滤波的方式对所述时间序列数据进行处理,包括:
将所述时间序列数据按照时间顺序进行排序,采用插值法将所述时间序列数据处理成预设时间间隔的时间序列数据;
计算所述预设时间间隔的时间序列数据的差分序列;
对所述差分序列进行HP滤波处理,得到异常值及对应的时间位置;
采用平均值法消除异常值,得到HP滤波处理后的时间序列数据。
在一种示例性的实施例中,所述基于HP滤波处理的结果构造特征数据,包括:
基于不同时间段异常值个数、不同时间段峰值个数和基于指定时间段是否出现峰值或异常值中的至少之一构建特征数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于精硕科技(北京)股份有限公司,未经精硕科技(北京)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910770567.X/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理





