[发明专利]一种对LDA微博话题特征抽取结果优化的方法在审
申请号: | 201611165690.1 | 申请日: | 2016-12-09 |
公开(公告)号: | CN106528539A | 公开(公告)日: | 2017-03-22 |
发明(设计)人: | 邱明涛;马静;梁珊;邱静;陈斌;姚兆旭;裴可锋;朱贺;闫超栋;刘威 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及文本挖掘领域,特别涉及一种对LDA微博话题特征抽取结果优化的方法,其特征是首先将LDA主题建模抽取到的无序特征词集合与分词后的原语料对比,构建特征词‑语料词序值矩阵,然后按照特征词‑语料词序值矩阵中每一行值得大小,对特征词在每条语料中第一次出现的顺序进行排序,构建特征词‑语料位序矩阵,统计在特征词‑语料位序矩阵中第一列出现次数最多的词语就是有序特征词集合中的首个特征词,接着对特征词‑语料位序矩阵的每一行中特征词的前后相邻关系进行计算,构建特征词词序权值矩阵,最后根据特征词词序权值矩阵中的值输出特征词的词序,增加主题特征抽取结果的可读性。 | ||
搜索关键词: | 一种 lda 话题 特征 抽取 结果 优化 方法 | ||
【主权项】:
一种对LDA微博话题特征抽取结果优化的方法,其特征在于包含以下几个步骤:步骤1)将LDA建模抽取到的无序特征词Tk={w1,w2,...wi,...wm‑1,wm}与分词后的语料集N(n)中的n条微博语料逐个进行对比,找出特征词在每条语料中第一次出现时的位序值,可以构建特征词‑语料词序值矩阵:其中vij代表特征词wi在语料Nj的所有词语中第一次出现时的词序值;步骤2)对矩阵Vn×m中的每一行按照vij的值从小到大顺序进行排序,排序以后用该值所对应的特征词wi替换vij,构成特征词‑语料位序矩阵An×m:矩阵An×m中ast的值表示:对于{w1,w2,...wi,...wm‑1,wm}这m个特征词,在第t条语料中第s个出现的是特征词ast;步骤3)基于有向图思想将特征词看作节点,特征词在语料中的前后连接关系看作有向的边,边的初始权值记为0,任意两个特征词之间每出现一次前后相邻的关系,就把前一个节点指向后一个节点的有向边的权值加1,遍历所有语料,通过累加的方式即可计算出任意两个节点有向边的权值,构造特征词词序权值矩阵:其中bij代表由节点wi指向节点wj的边的权值;步骤4)特征词词序值矩阵中,每个元素都代表了两个节点之间先后连接关系的权重,每一行都代表了该行所指特征词指向后一个特征词的权重,因此可以在步骤2)已经确定前一个特征词的条件下,通过比较该特征词所指的行各元素的大小来确定下一个元素,进一步可以确定所有特征词的排列顺序,按照顺序输出有序的特征词集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611165690.1/,转载请声明来源钻瓜专利网。
- 上一篇:智能识别情绪的方法及装置
- 下一篇:一种种子问句的分词方法和分词系统