[发明专利]一种基于大数据的选题策划系统在审
申请号: | 201710181931.X | 申请日: | 2017-03-24 |
公开(公告)号: | CN107103038A | 公开(公告)日: | 2017-08-29 |
发明(设计)人: | 刘永坚;白立华;施其明;刘益 | 申请(专利权)人: | 武汉理工数字传播工程有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京汇信合知识产权代理有限公司11335 | 代理人: | 夏静洁 |
地址: | 430000 湖北省*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 选题 策划 系统 | ||
技术领域
本发明涉及选题策划技术领域,尤其涉及一种基于大数据的选题策划系统。
背景技术
目前,国内进行用户需求方面的挖掘,主要是少数几家大公司在进行研究,其中比较成熟有影响力的商业公司是百度公司和阿里巴巴公司。百度公司的分析产品是“百度指数”,它是以在百度上网民海量的行为数据为基础的数据分析平台,可以为众多的企业营销决策做重要依据,帮助用户优化数字营销活动方案。阿里巴巴的分析产品有“淘宝指数”、“阿里指数”等等,主要着眼于电商角度的用户需求分析,用户可以通过该产品了解淘宝上庞大的购物数据,知道淘宝的购物趋势,使得商店卖家更加精准的制定营销方案。
而在大数据的背景下,国内着眼于内容提供商角度的用户需求分析研究整体起步较晚,相应的学术研究很少,但需求很迫切。近年来,伴随着网络信息技术和数字化媒体的蓬勃发展,我国图书出版行业发展遭遇到图书库存积压严重、消费者购买需求下降等问题。出版业急需借助于云计算、大数据技术为图书选题及发行提供科学依据,帮助出版社优化出版方向、推动出版产业转型升级。
目前,编辑在选稿和组稿的过程中大多凭借自身以往的工作经验,或者凭着灵感进行选题策划,本身没有进行太多的市场调研,定性分析的过程较多,而定量分析严重不足,这种方法显然不符合当代选题标准的。
发明内容
针对上述问题中存在的不足之处,本发明提供一种基于大数据的选题策划系统。
本发明提供一种基于大数据的选题策划系统,包括:
数据采集单元,采集图书选题策划的相关数据,所述相关数据包括微信公众号平台获取的数据、出版社业务系统提供的数据、数据管理员录入的数据和第三方交易平台获取的数据;
数据处理与存储单元,对采集后的数据按照数据时效性要求的高低分为实时业务数据源和基础数据源,存储在基于hadoop的出版社分布式数据库中,并上传到数据集市;
分析预测单元,包括统计分析平台;所述统计分析平台对数据集市提供的数据进行全面的分析与预测,为出版社制定、修改选题策划提供重要参考与依据。
作为本发明的进一步改进,所述数据采集单元包括:企业数据采集服务总线;
所述企业数据采集服务总线将微信公众号平台获取的数据、出版社业务系统提供的数据、数据管理员录入的数据和第三方交易平台获取的数据传输至数据处理与存储单元中;其中:
微信公众号平台获取的数据包括扫码数据、反馈意见数据和参与营销活动数据;
第三方交易平台获取的数据包括订单数据,协议数据和合同数据。
作为本发明的进一步改进,所述数据处理与存储单元包括数据加工模块;
所述数据加工模块对采集后的数据进行预处理,并按照数据时效性要求的高低分为实时业务数据源和基础数据源;其中,所述预处理包括数据的格式转换,所述实时业务数据源包括实时订单数据、实时库存数据和商务事故处理数据,所述基础数据源包括:历史销售数据、历史订单数据和企业内部文件数据。
作为本发明的进一步改进,所述分析预测单元还包括数据挖掘模块,数据先进行数据挖掘后再在统计分析平台进行展现;
所述数据挖掘模块包括:
置前分类模块,用于对微信端获取的读者基本信息和图书信息进行置前分类,生成用户基本信息数据库和图书信息数据库;所述读者基本信息包括时间、地点、职业、性别和年龄,所述图书信息包括书名、类型和章节;
特征提取模块,基于多个情景因子对采集的用户行为数据进行特征提取,生成用户行为信息数据库;所述情景因子包括用户的性别、年龄、社会阶层、上网时段偏好、阅读类型、停留时长、众筹信息;
兴趣模型建立模块,根据上述三个数据库建立基于用户行为的兴趣模型,兴趣模型采用用户偏好向量来表示,每个情景因子赋予不同的权值;
数据挖掘子模块,对用户进行聚类分析,采用KNN协同过滤挖掘技术分析用户偏好,并结合候选选题以及市场动态反馈数据进行图书选题策划的分析与排名,找出有市场潜力的图书选题。
本发明还提供一种数据挖掘方法,包括:
步骤1、对微信端获取的读者基本信息和图书信息进行置前分类,生成用户基本信息数据库和图书信息数据库;所述读者基本信息包括时间、地点、职业、性别和年龄,所述图书信息包括书名、类型和章节;
步骤2、基于多个情景因子对采集的用户行为数据进行特征提取,生成用户行为信息数据库;所述情景因子包括用户的性别、年龄、社会阶层、上网时段偏好、阅读类型、停留时长、众筹信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉理工数字传播工程有限公司,未经武汉理工数字传播工程有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710181931.X/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置