[发明专利]基于低秩矩阵分解的文章话题关键词提取方法和装置有效
申请号: | 201610218407.0 | 申请日: | 2016-04-09 |
公开(公告)号: | CN105912524B | 公开(公告)日: | 2019-08-20 |
发明(设计)人: | 郎丛妍;何伟明;于兆鹏;冯松鹤;王涛;杜雪涛;张晨 | 申请(专利权)人: | 北京交通大学;中国移动通信集团设计院有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/33 |
代理公司: | 北京红福盈知识产权代理事务所(普通合伙) 11525 | 代理人: | 陈月福 |
地址: | 100044 北京市海淀区北京交*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例提供了一种基于低秩矩阵分解的文章话题关键词提取方法和装置。该方法主要包括:使用将词表征为实数值向量的工具训练数据预处理后的文章文本,得到词向量化文件,使用基于文本图模型的关键词抽取算法抽取数据预处理后的文章文本中的特定话题下每个事件的关键词,根据抽取的关键词查询词向量化文件,建立特定话题下的关键词矩阵;采用增广拉格朗日乘子算法求解关键词矩阵的低秩分解问题,得到关键词低秩矩阵,最终生成所述数据预处理后的文章文本中所述特定话题下的关键词。本发明采用低秩矩阵分解的方法生成微博等文章话题的关键词,有效的解决了微博等文章话题关键词的稀疏性问题,大大降低了非关键词数据噪声的干扰。 | ||
搜索关键词: | 基于 矩阵 分解 文章 话题 关键词 提取 方法 装置 | ||
【主权项】:
1.一种基于低秩矩阵分解的文章话题关键词提取方法,其特征在于,包括:使用将词表征为实数值向量的工具训练数据预处理后的文章文本,得到词向量化文件,该词向量化文件中包括多个词语向量,所述词语包含关键词和非关键词;使用基于文本图模型的关键词抽取算法抽取所述数据预处理后的文章文本中的特定话题下每个事件的关键词,根据抽取的关键词查询所述词向量化文件,建立所述特定话题下的关键词矩阵;采用增广拉格朗日乘子算法求解所述关键词矩阵的低秩分解问题,得到关键词低秩矩阵,最终生成所述数据预处理后的文章文本中所述特定话题下的关键词;所述的使用基于文本图模型的关键词抽取算法抽取所述数据预处理后的文章文本中的特定话题下每个事件的关键词,根据抽取的关键词查询所述词向量化文件,建立所述特定话题下的关键词矩阵,包括:针对特定话题,使用基于文本图模型的关键词抽取算法将前述分词处理后的文章文本中的词语作为文本图模型的顶点,词语之间的关系作为文本图的边,建立文本图模型,顶点的权重的计算公式如下:
其中WS(Vi)表示词语i的权重,WS(Vj)表示词语j的权重;P是预先设置的阻尼系数,In(Vi)是存在指向词语i的所有词语的集合;Out(Vj)是词语j指向的所有词语的集合;wij表示词语i和词语j之间的联系强度,wjk表示词语j和词语k之间的联系强度;将所有词语的权值进行降序排序,选取排列靠前的设定数量个词语作为关键词;根据所述抽取的关键词查询所述词向量化文件,获取关键词对应的关键词向量,根据所有的关键词向量组成关键词矩阵:W(r*n),r=m*d,
其中,ki为特定话题下第i个事件抽取的关键词的个数,n为每个事件抽取的关键词的个数,d为每个关键词向量的维数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京交通大学;中国移动通信集团设计院有限公司,未经北京交通大学;中国移动通信集团设计院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610218407.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种礼品游戏机
- 下一篇:一种设有多功能钢库的台球桌库边结构