[发明专利]一种基于语义词网络的短文本主题挖掘方法有效
申请号: | 201910400416.5 | 申请日: | 2019-05-14 |
公开(公告)号: | CN110134958B | 公开(公告)日: | 2021-05-18 |
发明(设计)人: | 张雷;经伟;蔡洋;陆恒杨;徐鸣;王崇骏 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/30;G06F40/284 |
代理公司: | 南京瑞弘专利商标事务所(普通合伙) 32249 | 代理人: | 刘珊珊 |
地址: | 210093 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语义词网络的短文本主题挖掘方法,包括如下步骤1)模型初始化阶段:相关领域外部语料收集、语料预处理、参数设置等;2)主题单元构建阶段:构建语义词网络、寻找特定词三角结构、计算模型先验参数等工作;3)模型训练阶段:使用吉布斯采样方法对模型变量进行采样,并判断模型是否达到收敛条件;4)结果输出阶段:根据模型训练结束后的各个变量的采样结果,得到各个词三角的主题分布,进而推算出原文档的主题分布。本发明将外部语料库学习到的语义信息与词三角主题结构相结合,应用于短文本主题挖掘方面,相对于传统词对主题模型,该方法提供了一个在传统主题模型中融入外部先验知识的解决方案,并且挖掘主题的质量具有显著提升。 | ||
搜索关键词: | 一种 基于 语义 网络 文本 主题 挖掘 方法 | ||
【主权项】:
1.一种基于语义词网络的短文本主题挖掘方法,其特征在于,包括如下步骤:步骤1,模型初始化阶段:采集相关领域外部语料构建外部语料库;对外部语料库与目标语料库的进行预处理操作,使外部语料库与目标语料库中的语料转化为能够被word2vec模型接受的格式;将外部语料库作为输入,训练word2vec模型,使word2vec模型输出指定词向量;通过训练好的word2vec模型提取目标语料库中的词向量数据;步骤2,主题单元构建阶段:2)‑a根据目标语料库D={d1,d2,...,dn}中词语的共现关系生成基础词共现网络,具体步骤为:步骤2)‑a‑1)建立点集合V、边集合E、边属性集合R,初始状态为空;步骤2)‑a‑2)对于文档dk={w1,w2,...,wm}中的每个单词wi,如果单词wi未出现在集合V中,则将其加入V中,k∈{1,2,…,n};步骤2)‑a‑3)对于文档dk中所有单词对wi,wj,如果未存在于集合E中,则将其加入E中,并且在集合R中加入属性对rij=<Sij,sij>;其中,Sij={k}表示包含该词对的文档号集合,sij表示单词wi和wj之间的语义相似度属性;令Sij={k},若边eij已存在于集合E中,则在边属性rij中的文档号属性集合Sij中加入文档号k;2)‑b在词共现网络的基础上融入语义信息构建语义词网络,具体步骤为:步骤2)‑b‑1)将目标语料库与外部语料库中词语的词向量数据对比,对于目标语料库未登录的词,设定相应词向量为空,即为后续无语义信息;步骤2)‑b‑2)设置阈值δ;步骤2)‑b‑3)对于词共现网络中每一对词节点wi和wj,按照如下公式计算词语对之间的语义相似度:
其中,
和
分别表示词wi和wj对应的词向量;步骤2)‑b‑4)判断每一对词节点wi和wj间是否有边连接;若是,转到步骤2)‑b‑5);否则,转到步骤2)‑b‑6);步骤2)‑b‑5)将语义相似度sij记入边属性rij=<Sij,sij>中,其中Sij为词对原本的共现文档号集合;步骤2)‑b‑6)判断语义相似度sij是否满足sij>δ;若是,转到步骤2)‑b‑7);否则,该词对节点不做任何操作;步骤2)‑b‑7)在边集合E中加入边集合eij,并在边属性集合R中加入属性对rij=<Sij,sij>,令
sij=sim(wi,wj);步骤2)‑c对于语义词网络中每个词wi计算逆文档频率,公式如下:
其中|d∈D:wi∈d|表示包含wi的文档的个数,ND表示语料库中文档总数;步骤2)‑d在语义词网络中寻找满足以下条件的语义词三角:语义词三角中的三个单词节点之间互相有边连接,且来自不同文档子网络的连接部分;步骤3,模型训练阶段:对步骤2得到的所有语义词三角,随机初始化语义词三角的主题分布;通过吉布斯采样得到当前语义词三角分布,并且由此计算文档主题分布和主题词语分布更新参数,循环迭代,直到达到最大迭代次数或吉布斯采样收敛,将最后得到的吉布斯采样结果作为词三角主题分布;步骤4,结果输出阶段:根据步骤3得到的语义词三角主题分布,推算出原文档的主题分布。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910400416.5/,转载请声明来源钻瓜专利网。