[发明专利]一种基于N-gram增量主题模型的语义挖掘方法无效

申请号：	201110201966.8	申请日：	2011-07-19
公开（公告）号：	CN102243625A	公开（公告）日：	2011-11-16
发明（设计）人：	王晗;徐毅;郎波;李未	申请（专利权）人：	北京航空航天大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	李新华
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 gram 增量主题模型语义挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及科技文本数据主题挖掘的范畴下，增量地对文本输入流创建基于N-gram的主题模型的方法。

背景技术

自动分析以及抽取科技文献资源的语义信息是一个被学者们广泛研究的问题。为此人们研制了文本挖掘方法来帮助提高分析文本的语义。主题模型作为挖掘文本内在主题信息的有力工具，也常常被应用到文本挖掘领域。但到目前为止，没有一种主题模型可以较好的适用于科技文献类型的数据，而且主题模型的训练时间较长，不适合像信息检索这一类对实时性要求较高的任务中。

基于N-gram增量主题模型的语义挖掘方法的提出就是为了解决这一问题。通过扩展现有的主题模型，在模型的单词空间中引入N-gram(N元语法元素)以提高模型的预测能力以及语义表达能力；同时采用增量学习的思想，采用非对称先验概率保存历史的主题分布信息，从而使模型的训练算法可以适用于动态增长的文本数据量，进而冲破了现有主题模型仅适合于静态文本数据集这一限制，提高了模型训练的效率。

本发明提出一个基于N-gram增量主题模型的语义挖掘方法，对于提高科技文献语义挖掘的效果具有重要的意义。

发明内容

本发明要解决的技术问题：填补了现有技术的空白，提供一种在科技文本数据主题挖掘领域，增量地对文本输入流创建基于N-gram(N元语法元素)的增量主题模型的语义挖掘的方法。

本发明采用的技术方案：一种基于N-gram增量主题模型的语义挖掘方法，其特征在于步骤如下：

(1)将Author-Conference主题模型(Author-Conference-Topic Model，ACT)进行扩展：扩展单词空间，从Unigram(一元语法元素)到N-gram(N元语法元素)；

(2)对于当前输入数据，若为第一个输入数据流，则根据给定的常数值初始化当前模型的先验概率参数。否则，根据之前训练模型中后验概率的线性加权计算当前模型中先验概率的参数；

(3)采用吉布斯采样方法计算模型对当前数据的后验概率值；

(4)对于新的输入数据流，重复步骤(2)、(3)增量训练模型。

2、根据本发明的另一方面，所述的步骤(1)进一步包括：

(1a)遍历输入文本集合，抽取其中的bigrams(二元语法元素)并计算每一个bigram出现的频率；

(1b)对于每一个bigram(二元语法元素)w，计算其chi-square(卡方检验)测试评分如果大于给定的阈值T，即则选择w为候选N-gram；

(1c)过滤掉不合适的候选N-gram(N元语法元素)：如果候选N-gram(N元语法元素)包含数字、标点符号或者停顿词，则将其从候选集合中去除；