[发明专利]一种基于混合特征的线上图书价值发现方法有效
| 申请号: | 201811633423.1 | 申请日: | 2018-12-29 |
| 公开(公告)号: | CN109670922B | 公开(公告)日: | 2022-02-08 |
| 发明(设计)人: | 刘磊;孙应红;陈浩;吴爽;侯良文;李静 | 申请(专利权)人: | 北京工业大学 |
| 主分类号: | G06Q30/06 | 分类号: | G06Q30/06 |
| 代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 吴荫芳 |
| 地址: | 100124 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明属于计算机软件技术领域,提出了一种基于混合特征的线上图书价值发现方法,本发明通过分析线上图书的各类特征指标,结合机器学习算法构建线上图书价值发现模型。首先,采集线上图书数据,利用统计方法对图书的评论、价格、出版时间等价值特征进行分析,确定出对图书价值影响较大的特征。其次,根据已确定特征对每类图书在时间维度上进行分析,建立图书价值发现模型。图书价值发现模型可用于线上图书在时间维度上的价值发现。实验分析以亚马逊图书网站为例,说明了方法的有效性。 | ||
| 搜索关键词: | 一种 基于 混合 特征 线上 图书 价值 发现 方法 | ||
【主权项】:
1.一种基于混合特征的线上图书价值发现方法,包括以下步骤:步骤(1)采集某线上图书商城的图书特征数据D={bf1,bf2,…,bfn},bfi表示某一本书的特征数据,图书特征bf进一步描述如下:bf={name,class,price,public_time,sale_time,times,paper_num,press,author,comment_num,good_comment_num,status,ranking,comment_set};特征符号的语义说明如下表1:表1图书特征符号的语义说明
comment_set={p1,p2,…,pn},其中pi表示一条图书评论;p={comment_content,comment_time}其中,comment_content表示图书评论内容,comment_time表示图书评论时间;步骤(2)对采集的数据集D进行预处理(2.1)按照数据挖掘的预处理策略,删除数据集D中缺失值超过θ的图书数据,θ的取值范围为[0.2,1],对缺失值低于θ的数据用该数据所在特征维度的其他特征值的平均值或众数进行填充,标准化图书特征的数据表示方式;(2.2)对数据D中的每本图书数据对应的数值型特征,即price,paper_num,comment_num,times,good_comment_num进行去量纲化处理,把每一个数值型图书特征映射到[0,1]区间,公式如下:
其中,xij为第i个特征在第j个分量上对应的原始值,第i特征在数据集D中可以表示为(xi1,xi2,…,xij,…,xin),min{x11,x12,…,x1j,…,xin}为第i个特征的分量中的最小值,max{x11,x12,…,x1j,…,xin}为其最大值,![]()
为每本图书第i个特征上的第j个分量归一化后的值,归一化后的第i个特征可表示为
步骤(3)计算基于时间维度的图书评论内容价值;(3.1)构建图书的好评价值词词典GVD和差评价值词词典BVD(3.1.1)对步骤1中采集的图书评论数据comment_content进行分词,词性标注,只保留形容词、名词以及动词,构建评论语料库,记作COMM;(3.1.2)构建初始好评价值词典与初始差评价值词典,其中初始好评价值词典记作GVD0={w1,w2,…,wm},wi是人工标注的初始好评种子词;初始差评价值词典BVD0={v1,v2,…,vn},vi是人工标注的初始差评种子词;(3.1.3)扩充价值词典GVD0与BVD0以语料库COMM为输入数据,利用通用的word2vec词向量方法,训练得到价值词模型,记作WORDVEC;对所有的wl∈GVD0,利用WORDVEC模型得到与wl语义最为相近的前N个价值词,记作WORDVEC(wl)={c1,c2,…cN};最后合并所有WORDVEC(wl),wl∈GVD0,得到扩充后的好评价值词典,记作:GVD=GVD0∪WORDVEC(w1)∪...WORDVEC(wl)...∪WORDVEC(wm)类似的可以得到扩充后的差评价值词典,记作:BVD=BVD0∪WORDVEC(v1)∪...WORDVEC(vj)...∪WORDVEC(vn)(3.2)以L天为单位,计算每本图书的评论内容价值对于D中的每本图书bf,以图书特征上架时间sale_time为起始点,将bf的图书评论集合comment_set按照评论发表时间,以L天为一组进行分割,分割后的图书评论集合记为S,被划分为m个子图书评论集合,其中S={s1,s2,…,sm},si={p′1,p′2,…,p′k},si表示其中某一组评论内容,且其中有k条评论内容;根据公式2计算图书评论子集si∈S的评论内容价值:
其中ul∈GVD,frei(ul)表示价值词ul在图书评论子集si中的词频,M1=|GVD|为好评价值词字典的大小,ηj∈BVD,frei(ηj)表示价值词ηj在图书评论子集si中的词频,M2=|BVD|为差评价值词典的大小;则图书评论集合S的评论内容价值可记作
其中
表示图书在评论子集si上的评论价值;(3.3)通过公式1对图书评论内容价值vS进行归一化处理,使其落入区间[0,1],计算基于时间维度的图书评论内容价值后,comment_set特征被替换为图书评论内容价值vS,数据集D可以表示为:D={bf1,bf2,…,bfn},bf∈D表示某一本书的特征数据,bf={name,class,price,public_time,sale_time,times,paper_num,press,author,comment_num,good_comment_num,status,ranking,vS},
步骤(4)选择图书价值特征(4.1)基于图书特征status,取出数据集D中的上榜图书,即status=1的图书集合,并基于特征指标ranking,为每一本上榜图书设定一个分值,记作数据集D′,D′={(bf1,y1),(bf2,y2),…,(bfn,yn)},其中yi是基于特征指标ranking给定的一个图书分值,
rankingi表示图书bfi在其排行榜上的名次,分母加0.1是因为防止该值等于1;(4.2)分析图书的各数值型特征与图书价值之间的相关性(4.2.1)从图书特征bf中选择出数值型特征集合:bf′={price,public_time,times,paper_num,comment_num,good_comment_num};(4.2.2)对任意的数值型特征t=(t1,t2,…,tn)∈bf′,通过公式3计算t与y=(y1,y2,…,yn)的相关性系数,公式如下:
其中,Cov(t,y)为特征t与y的协方差,计算公式为:
σt,σy为特征t与y的标准差,计算公式为:![]()
如果t与y的相关性系数rt,y的绝对值|rt,y|≥0.8,则认为t与y之间具有很强的相关性;0.3≤|rt,y|<0.8,则认为t与y的相关性较弱,|rt,y|<0.3,则认为相互独立,没有相关性;删掉相关性系数|rt,y|<0.3的特征,然后对剩余的相关性系数从大到小排序,选取前N个特征作为最终的图书特征,记作:bf′={f1,f2,…,fN};数值型特征选取后,上榜图书数据集D′可以表示为:D'={bf1,bf2,…,bfn},其中bfi表示某一本书的特征数据,bf={bf′,vS,ranking,class}∈D′,
步骤(5)利用上榜图书数据集D′,对每类图书在每个时间段进行图书价值建模(5.1)对上榜图书数据集D′,基于图书类别特征class={c1,c2,…,cl}进行分割,得到:
(5.2)对每类图书cj∈class,基于图书评论内容价值
进行二次分割,其中第cj类数据集
分割后的数据可表示为:
其中
表示为:
其中M表示具体某个时间段上图书的数量,对任意
有
(5.3)在每个数据集
上,根据ranking特征可以计算每一本图书的一个近似的价值得分
则第cj第si(i=1,2,…,m)段上的数据集
可表示为
其中n表示第cj第si段上图书的数量,bfi表示第i图书的特征数据,然后以y=(y1,y2,…,yn)作为训练时的标签label,即图书价值
的近似;最后利用因子分解机算法FM在数据集
做回归分析,因子分解机训练的模型如下:
其中,以
作为cj(j=1,2,…l)类图书中一本图书
在时间段si的价值得分,x=(x1,x2,…xN)=bf,xq,xl,xp∈x,wq,wl,p为待训练的图书价值权值;通过FM算法的训练,可以得到所需的权值wq,wl,p,为表示方便,记作
训练完后得到价值模型
同理,可以对所有类别的图书,在各个时间段上求取对应的价值模型;步骤(6)利用步骤(5)训练得到的价值模型
可以计算出每本图书的价值得分,并分析其价值走势,对任意一本图书
基于特征
可以得到对应时间段上的价值得分:
其中,x=bf为上榜的cj类的任意一本图书数据,而该图书基于前T∈{1,2,…,m}个时间段上的总价值得分可以表示为:
利用公式8可计算出图书bf的前T个时间段的价值得分;最后把该图书第T+1时刻的图书数据输入价值模型
可以得到该图书在第T+1时间段的价值预测![]()
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811633423.1/,转载请声明来源钻瓜专利网。





