[发明专利]一种基于高斯混合模型的用户知识需求模型构建方法有效
申请号: | 201710321921.1 | 申请日: | 2017-05-09 |
公开(公告)号: | CN107220233B | 公开(公告)日: | 2020-06-16 |
发明(设计)人: | 郝佳;杨念;王国新;阎艳;杨剑雄;余俊;贾良跃 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/253;G06N5/00 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 郭德忠;李爱英 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 模型 用户 知识 需求 构建 方法 | ||
1.一种基于高斯混合模型的用户知识需求模型构建方法,其特征在于,包括以下步骤:
步骤1:在已有知识库中提取功能词汇,并生成功能词汇集;
步骤2:将功能词汇集中的各个功能词汇转化为向量,具体方法为:
基于知识库训练word2vec的skip-gram模型,并根据该模型生成功能词汇的向量,其中一个功能词汇对应一个向量,且向量间接体现功能词汇的语义信息,功能词汇对应的向量的相似度随着功能词汇语义信息的相似度增加而增大;
步骤3:针对用户浏览过的知识条目,统计所有知识条目中的功能词汇的词频,然后根据词频计算各个功能词汇对应的TF-IDF权重;根据功能词汇的TF-IDF权重对功能词汇进行排序,选取M个TF-IDF权重最大的功能词汇,其中功能词汇为向量的表示形式,M为设定的数目;
步骤4:基于步骤3选取出的M个功能词汇,利用EM算法求解高斯混合模型参数,得到描述功能词汇分布的高斯混合模型;具体步骤为:
步骤41:初始化高斯混合模型参数,其中高斯混合模型具体为:
其中,xt表示功能词汇对应的向量,t=1,2,...,M,G(xt)是用户选择功能词汇对应的向量xt的概率,αk是第k个高斯分布的权重,μk,σk分别是第k个高斯分布的均值和方差,N(xt|μk,σk)为向量xt符合均值μk和方差σk的正态分布,K至少为3,高斯分布的3个参数初始值分别设定为
步骤42:采用EM算法优化高斯混合模型的参数,具体的:
E步:将高斯分布的3个初始参数以及代入公式(2),分别作为αk、μk以及σk的初始值,计算向量xt由第k个高斯分布生成的概率
其中,αj是第j个高斯分布的权重,μj,σj分别是第j个高斯分布的均值和方差;
M步:基于E步计算出的概率运用最大似然法估计高斯混合模型的参数αk、μk以及σk:
步骤43:将M步计算的结果αk、μk以及σk代入公式(1),计算向量的概率G(xt),并判断概率G(xt)与前一迭代结果的差值是否大于设定值ε,其中:
如果用户选择任意向量的概率G(xt)与前一迭代结果的差值不大于设定值ε,则停止迭代,且αk、μk以及σk为最终的高斯混合模型参数;
如果用户选择任意向量的概率G(xt)与前一迭代结果的差值大于设定值ε,则将M步的计算结果αk、μk以及σk取代初始参数以及再次代入公式(2),重新计算向量xt由第k个高斯分布生成的概率再根据新计算的概率代入M步的公式(3)、公式(4)以及公式(5),将得到的新的高斯分布的参数以及代入公式(1),计算向量的概率G(xt)*,并判断概率G(xt)与前一迭代结果的差值是否大于设定值ε;以此类推,直到用户选择任意向量的概率与前一迭代结果的差值不大于设定值ε,则停止迭代,得到最终的高斯混合模型参数;
步骤5:向步骤4获得的高斯混合模型输入知识库中除步骤3中M个以外的功能词汇的向量,得到用户选择功能词汇的概率,然后根据该概率计算用户对知识库中所有知识条目的需求概率,最终得到用户对于知识条目的知识需求模型;
所述的计算用户对知识库中所有知识条目的需求概率具体步骤如下:
知识条目di包含的功能词汇对应的向量为xm,其中i=1,2,...,q,m=1,2,...,p,每个功能词汇在知识条目di中出现的词频为tfi1,tfi2,…tfim…,tfip,对词频进行归一化处理之后,得到每个功能词汇在知识条目di中出现的的频率为wi1,wi2,…wim…,wip,其中归一化计算公式为:
则用户选择知识条目di的概率G(di)为:
其中公式(7)为用户对于知识条目的知识需求模型,G(xm)为用户选择功能词汇xm的概率;
步骤6:将步骤5中需求概率最高的设定数目的H个知识条目推送给用户并生成知识条目集,其中H为设定的数目;基于用户浏览的知识条目,实时更新用户浏览过的知识条目集并更新步骤3中M个TF-IDF权重最大的功能词汇,然后基于更新过的M个TF-IDF权重最大的功能词汇,通过步骤4和步骤5重新计算用户对于知识条目的知识需求模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710321921.1/1.html,转载请声明来源钻瓜专利网。