[发明专利]主题挖掘方法和装置有效
申请号: | 201410281183.9 | 申请日: | 2014-06-20 |
公开(公告)号: | CN105335375B | 公开(公告)日: | 2019-01-15 |
发明(设计)人: | 曾嘉;袁明轩;张世明 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F17/27 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 刘芳 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种主题挖掘方法和装置,通过在每次执行迭代过程时,根据消息向量的残差,从消息向量中确定目标消息向量,从而仅根据目标消息向量对当前文档‑主题矩阵和当前单词‑主题矩阵进行更新,再根据当前文档‑主题矩阵和当前单词‑主题矩阵,仅对目标消息向量对应的所述单词‑文档矩阵中的目标元素进行计算,避免了每次迭代过程均需要对单词‑文档矩阵中的全部非零元素进行计算,以及避免了根据全部的消息向量对当前文档‑主题矩阵和当前单词‑主题矩阵进行更新,极大地减少了运算量,加快了主题挖掘的速度,提高了主题挖掘的效率。 | ||
搜索关键词: | 主题 挖掘 方法 装置 | ||
【主权项】:
1.一种主题挖掘方法,其特征在于,包括:根据潜在狄利克雷分布LDA模型的当前文档‑主题矩阵和当前单词‑主题矩阵对训练文档的单词‑文档矩阵中的非零元素进行计算,得到非零元素的消息向量Mn;根据所述非零元素的消息向量的残差,从所述非零元素的消息向量Mn中确定目标消息向量ObjectMn;所述目标消息向量为按照残差从大到小顺序排在前预设比例的消息向量,所述预设比例的取值范围为小于1且大于0;根据所述目标消息向量ObjectMn对所述LDA模型的当前文档‑主题矩阵和当前单词‑主题矩阵进行更新;从所述单词‑文档矩阵中的非零元素中确定所述目标消息向量ObjectMn所对应的目标元素ObjectEn;第n+1次执行根据LDA模型的当前文档‑主题矩阵和当前单词‑主题矩阵,对训练文档的单词‑文档矩阵中第n次所确定的目标元素ObjectEn进行计算,得到所述单词‑文档矩阵中第n次所确定的目标元素ObjectEn的消息向量Mn+1,根据所述第n次确定的目标元素的消息向量的残差,从所述第n次确定的目标元素ObjectEn的消息向量Mn+1中确定目标消息向量ObjectMn+1,根据第n+1次所确定的目标消息向量ObjectMn+1对当前文档‑主题矩阵和当前单词‑主题矩阵进行更新,以及从所述单词‑文档矩阵中,确定第n+1次所确定的目标消息向量ObjectMn+1所对应的目标元素ObjectEn+1的迭代过程,直至筛选后的目标元素ObjectEp的消息向量、当前文档‑主题矩阵和当前单词‑主题矩阵达到收敛状态;将达到收敛状态的当前文档‑主题矩阵和达到收敛状态的当前单词‑主题矩阵确定为所述LDA模型的参数,利用确定参数后的所述LDA模型对待测文档进行主题挖掘;所述根据潜在狄利克雷分布LDA模型的当前文档‑主题矩阵和当前单词‑主题矩阵对训练文档的单词‑文档矩阵中的非零元素进行计算,得到非零元素的消息向量Mn,包括:在第n次执行所述迭代过程中,根据公式
进行计算,得到所述单词‑文档矩阵中第w行第d列的元素xw,d的消息向量的第k个元素值
其中,k=1,2,...,K,K为预设的主题数目,w=1,2,...,W,W为单词表长度,d=1,2,...,D,D为所述训练文档数目,
为当前文档‑主题矩阵第k行第d列的元素值,
为当前单词‑主题矩阵第k行第w列的元素值,α和β为预设系数,取值范围为正数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410281183.9/,转载请声明来源钻瓜专利网。