[发明专利]基于自扩充表示和相似双向约束的短文本主题发现方法及系统有效
| 申请号: | 201810306013.X | 申请日: | 2018-04-08 |
| 公开(公告)号: | CN108681557B | 公开(公告)日: | 2022-04-01 |
| 发明(设计)人: | 姜波;李宁;卢志刚;姜政伟 | 申请(专利权)人: | 中国科学院信息工程研究所 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/216;G06F40/30;G06F40/289 |
| 代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余长江 |
| 地址: | 100093 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 扩充 表示 相似 双向 约束 文本 主题 发现 方法 系统 | ||
1.一种基于自扩充表示和相似双向约束的短文本主题发现方法,其步骤包括:
基于TF-IWF词权重度量方法,在原始短文本文档数据集上构建待挖掘主题的词-文档矩阵;
向量化原始短文本文档数据集中的短文本文档,再度量两两文档间相似性,从原始短文本文档数据集中为每个短文本文档选取最相关的前若干个文档来扩充当前短文本文档的表示,得到虚拟长文档集合;
利用TF-IWF词权重度量方法,在虚拟长文档集合上构建虚拟辅助的词-文档矩阵;
上述TF-IWF的计算公式如下:
式中,w表示一个关键词,d表示一个短文本文档,I(w,d)是指示函数,如果关键词w出现在短文本文档d中,则I(w,d)为1,否则为0;tf(w,d)表示关键词w在短文本文档d中出现的次数,N表示文档集合中短文本文档个数,WF(w)表示在整个短文本文档集合中关键词w出现的次数;
合并待挖掘主题的词-文档矩阵和虚拟辅助的词-文档矩阵为混合矩阵;
利用基于词嵌入的GloVe算法向量化短文本文档数据集中每个词,再利用余弦相似度方法度量两个词之间的相似度,构建词-词语义相似矩阵,基于该矩阵构建词-词语义关系正则项;
利用基于吉布斯采样的GSDMM算法对原始短文本文档集合和虚拟长文档集合进行聚类,根据短文本文档所属类别的不同,构建文档-文档语义相似矩阵,基于该矩阵构建文档-文档语义关系正则项;
基于混合矩阵、词-词语义关系正则项、文档-文档语义关系正则项,得到基于正则化非负矩阵分解的TRNMF模型,通过分解损失函数值,获得最优的词-话题潜在特征矩阵、话题-文档潜在特征矩阵,发现短文本主题分布情况。
2.根据权利要求1所述的方法,其特征在于,基于余弦相似度方法度量两两文档间相似性。
3.根据权利要求1所述的方法,其特征在于,采用Doc2Vec算法对短文本文档进行向量化。
4.根据权利要求1所述的方法,其特征在于,虚拟长文档集合的大小与原始短文本文档数据集相同。
5.根据权利要求1所述的方法,其特征在于,虚拟辅助的词-文档矩阵和待挖掘主题的词-文档矩阵具有相同结构,共用同一关键词列表。
6.根据权利要求1所述的方法,其特征在于,将词-词语义关系正则项和文档-文档语义关系正则项融合到TRNMF模型的目标函数中;通过随机梯度下降算法计算分解损失函数值,直至达到收敛的预设值或迭代最大次数,获得最优的词-话题潜在特征矩阵、话题-文档潜在特征矩阵。
7.一种基于自扩充表示和相似双向约束的短文本主题发现系统,包括存储器和处理器,所述存储器存储计算机程序,所述程序被配置为由所述处理器执行,所述程序包括用于执行上述权利要求1-6任一所述方法中各步骤的指令。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810306013.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:分布式指令域数据的访问方法及其系统
- 下一篇:一种数据回滚方法、装置、及终端





