[发明专利]一种基于高斯混合模型的用户知识需求模型构建方法有效

申请号：	201710321921.1	申请日：	2017-05-09
公开（公告）号：	CN107220233B	公开（公告）日：	2020-06-16
发明（设计）人：	郝佳;杨念;王国新;阎艳;杨剑雄;余俊;贾良跃	申请（专利权）人：	北京理工大学
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/253;G06N5/00
代理公司：	北京理工大学专利中心 11120	代理人：	郭德忠;李爱英
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于混合模型用户知识需求构建方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于高斯混合模型的用户知识需求模型构建方法，其特征在于，包括以下步骤：

步骤1：在已有知识库中提取功能词汇，并生成功能词汇集；

步骤2：将功能词汇集中的各个功能词汇转化为向量，具体方法为：

基于知识库训练word2vec的skip-gram模型，并根据该模型生成功能词汇的向量，其中一个功能词汇对应一个向量，且向量间接体现功能词汇的语义信息，功能词汇对应的向量的相似度随着功能词汇语义信息的相似度增加而增大；

步骤3：针对用户浏览过的知识条目，统计所有知识条目中的功能词汇的词频，然后根据词频计算各个功能词汇对应的TF-IDF权重；根据功能词汇的TF-IDF权重对功能词汇进行排序，选取M个TF-IDF权重最大的功能词汇，其中功能词汇为向量的表示形式，M为设定的数目；

步骤4：基于步骤3选取出的M个功能词汇，利用EM算法求解高斯混合模型参数，得到描述功能词汇分布的高斯混合模型；具体步骤为：

步骤41：初始化高斯混合模型参数，其中高斯混合模型具体为：

其中，x_t表示功能词汇对应的向量，t＝1,2,...,M，G(x_t)是用户选择功能词汇对应的向量x_t的概率，α_k是第k个高斯分布的权重，μ_k,σ_k分别是第k个高斯分布的均值和方差，N(x_t|μ_k,σ_k)为向量x_t符合均值μ_k和方差σ_k的正态分布，K至少为3，高斯分布的3个参数初始值分别设定为

步骤42：采用EM算法优化高斯混合模型的参数，具体的：

E步：将高斯分布的3个初始参数以及代入公式(2)，分别作为α_k、μ_k以及σ_k的初始值，计算向量x_t由第k个高斯分布生成的概率

其中，α_j是第j个高斯分布的权重，μ_j,σ_j分别是第j个高斯分布的均值和方差；

M步：基于E步计算出的概率运用最大似然法估计高斯混合模型的参数α_k、μ_k以及σ_k：

步骤43：将M步计算的结果α_k、μ_k以及σ_k代入公式(1)，计算向量的概率G(x_t)，并判断概率G(x_t)与前一迭代结果的差值是否大于设定值ε，其中：

如果用户选择任意向量的概率G(x_t)与前一迭代结果的差值不大于设定值ε，则停止迭代，且α_k、μ_k以及σ_k为最终的高斯混合模型参数；

如果用户选择任意向量的概率G(x_t)与前一迭代结果的差值大于设定值ε，则将M步的计算结果α_k、μ_k以及σ_k取代初始参数以及再次代入公式(2)，重新计算向量x_t由第k个高斯分布生成的概率再根据新计算的概率代入M步的公式(3)、公式(4)以及公式(5)，将得到的新的高斯分布的参数以及代入公式(1)，计算向量的概率G(x_t)^*，并判断概率G(x_t)与前一迭代结果的差值是否大于设定值ε；以此类推，直到用户选择任意向量的概率与前一迭代结果的差值不大于设定值ε，则停止迭代，得到最终的高斯混合模型参数；

步骤5：向步骤4获得的高斯混合模型输入知识库中除步骤3中M个以外的功能词汇的向量，得到用户选择功能词汇的概率，然后根据该概率计算用户对知识库中所有知识条目的需求概率，最终得到用户对于知识条目的知识需求模型；

所述的计算用户对知识库中所有知识条目的需求概率具体步骤如下：

知识条目d_i包含的功能词汇对应的向量为x_m，其中i＝1,2,...,q，m＝1,2,...,p，每个功能词汇在知识条目d_i中出现的词频为tf_i1,tf_i2,…tf_im…,tf_ip，对词频进行归一化处理之后，得到每个功能词汇在知识条目d_i中出现的的频率为w_i1,w_i2,…w_im…,w_ip，其中归一化计算公式为：

则用户选择知识条目d_i的概率G(d_i)为：

其中公式(7)为用户对于知识条目的知识需求模型，G(x_m)为用户选择功能词汇x_m的概率；

步骤6：将步骤5中需求概率最高的设定数目的H个知识条目推送给用户并生成知识条目集，其中H为设定的数目；基于用户浏览的知识条目，实时更新用户浏览过的知识条目集并更新步骤3中M个TF-IDF权重最大的功能词汇，然后基于更新过的M个TF-IDF权重最大的功能词汇，通过步骤4和步骤5重新计算用户对于知识条目的知识需求模型。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710321921.1/1.html，转载请声明来源钻瓜专利网。

上一篇：一种存储器供电架构的检测方法及装置
下一篇：一种微型圆钢管混凝土桩极限抗弯承载力计算方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于高斯混合模型的用户知识需求模型构建方法有效

专利文献下载