[发明专利]一种电影票房的映前预测方法在审
申请号: | 202110591509.8 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113379448A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 孙利军 | 申请(专利权)人: | 西安影视数据评估中心有限公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F16/242;G06F16/2458;G06F16/953 |
代理公司: | 苏州中合知识产权代理事务所(普通合伙) 32266 | 代理人: | 阮梅 |
地址: | 710000 陕西省西安*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 电影票房 预测 方法 | ||
1.一种电影票房的映前预测方法,其特征在于,包括如下步骤:
获取目标电影相关的基本结构化信息和社交平台舆情数据;
对电影的基本结构化信息进行预处理,生成电影的结构化训练数据;
利用自然语言处理技术对社交平台舆情数据进行处理,获得电影的舆情语料训练数据;
利用社交网络分析技术对基本结构化信息中的演职员列表进行处理建立社交网络,并基于社交网络确定电影中各演职员的社交网络重要度;
基于电影的结构化训练数据、舆情语料训练数据和各演职员的社交网络重要度数据,利用GBM算法构建回归预测模型;
利用回归预测模型对目标电影进行预测,获得目标电影的总票房数据。
2.根据权利要求1所述的一种电影票房的映前预测方法,其特征在于,还包括如下步骤:通过网络爬虫和人工标注的方式获取目标电影相关的基本结构化信息和社交平台舆情数据。
3.根据权利要求1所述的一种电影票房的映前预测方法,其特征在于,所述基本结构化信息包括类型、制片国家、语言、时长、上映日期、演职员列表、制片公司列表、IMDB号、影片官方网站、影片预告片列表和电影的票房数据等。
4.根据权利要求1或3所述的一种电影票房的映前预测方法,其特征在于,所述预处理为对基本结构化信息中的数值型特征进行标准化处理,对因子型特征进行规范化并生成哑变量矩阵。
5.根据权利要求1所述的一种电影票房的映前预测方法,其特征在于,所述利用自然语言处理技术对社交平台舆情数据进行处理,获得电影的舆情语料训练数据,具体包括如下步骤:
对获取的社交平台舆情数据进行初步清洗;
对初步清洗后数据信息进行新词发现以及确定;
利用分词工具对确定的新词进行分词处理并去除无意义项,获得分词结果;
在所得分词结果中统计电影中演职员提及数、好评差评比、单日最大舆情数、平均舆情数、舆情数标准差、发布舆情去重用户数等数据,作为舆情语料训练数据。
6.根据权利要求5所述的一种电影票房的映前预测方法,其特征在于,所述新词发现以及确定,包括如下步骤:
基于预设的候选词的长度上限,根据长度上限从初步清洗后数据信息中穷举所有可能的新词组合,构成待考察的候选词集合;
统计集合中所有候选词的词频;
计算集合中所有候选词的互信息度;
以互信息度大于0为条件在候选词集合中做筛选,并对筛选结果按左右侧邻字信息熵降序排列,取排其头部预设数量的候选词作为新词。
7.根据权利要求1所述的一种电影票房的映前预测方法,其特征在于,所述利用社交网络分析技术对基本结构化信息中的演职员列表进行处理建立社交网络,并基于社交网络确定电影中各演职员的社交网络重要度,具体包括如下步骤:
提取所有上映日期早于预设日期的所有电影中所有演职员构成,以演职员为节点,演职员之间的合作关系为边,构建以两个节点所有合作电影总票房之和为权重的无向社交网络;
计算无向社交网络中所有节点的特征向量中心性,以节点的特征向量中心性作为在无向社交网络中的重要度表示;
提取电影中演职员在无向社交网络中的社交网络重要度。
8.根据权利要求1所述的一种电影票房的映前预测方法,其特征在于,还包括如下步骤:利用GBM算法进行建模过程中,采用十折交叉验证。
9.根据权利要求8所述的一种电影票房的映前预测方法,其特征在于,还包括如下步骤:性能测试中,使用均方根对数误差作为性能指标,对回归预测模型进行验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安影视数据评估中心有限公司,未经西安影视数据评估中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110591509.8/1.html,转载请声明来源钻瓜专利网。