[发明专利]一种基于语义词网络的短文本主题挖掘方法有效

专利信息
申请号: 201910400416.5 申请日: 2019-05-14
公开(公告)号: CN110134958B 公开(公告)日: 2021-05-18
发明(设计)人: 张雷;经伟;蔡洋;陆恒杨;徐鸣;王崇骏 申请(专利权)人: 南京大学
主分类号: G06F40/258 分类号: G06F40/258;G06F40/30;G06F40/284
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 刘珊珊
地址: 210093 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于语义词网络的短文本主题挖掘方法,包括如下步骤1)模型初始化阶段:相关领域外部语料收集、语料预处理、参数设置等;2)主题单元构建阶段:构建语义词网络、寻找特定词三角结构、计算模型先验参数等工作;3)模型训练阶段:使用吉布斯采样方法对模型变量进行采样,并判断模型是否达到收敛条件;4)结果输出阶段:根据模型训练结束后的各个变量的采样结果,得到各个词三角的主题分布,进而推算出原文档的主题分布。本发明将外部语料库学习到的语义信息与词三角主题结构相结合,应用于短文本主题挖掘方面,相对于传统词对主题模型,该方法提供了一个在传统主题模型中融入外部先验知识的解决方案,并且挖掘主题的质量具有显著提升。
搜索关键词: 一种 基于 语义 网络 文本 主题 挖掘 方法
【主权项】:
1.一种基于语义词网络的短文本主题挖掘方法,其特征在于,包括如下步骤:步骤1,模型初始化阶段:采集相关领域外部语料构建外部语料库;对外部语料库与目标语料库的进行预处理操作,使外部语料库与目标语料库中的语料转化为能够被word2vec模型接受的格式;将外部语料库作为输入,训练word2vec模型,使word2vec模型输出指定词向量;通过训练好的word2vec模型提取目标语料库中的词向量数据;步骤2,主题单元构建阶段:2)‑a根据目标语料库D={d1,d2,...,dn}中词语的共现关系生成基础词共现网络,具体步骤为:步骤2)‑a‑1)建立点集合V、边集合E、边属性集合R,初始状态为空;步骤2)‑a‑2)对于文档dk={w1,w2,...,wm}中的每个单词wi,如果单词wi未出现在集合V中,则将其加入V中,k∈{1,2,…,n};步骤2)‑a‑3)对于文档dk中所有单词对wi,wj,如果未存在于集合E中,则将其加入E中,并且在集合R中加入属性对rij=<Sij,sij>;其中,Sij={k}表示包含该词对的文档号集合,sij表示单词wi和wj之间的语义相似度属性;令Sij={k},若边eij已存在于集合E中,则在边属性rij中的文档号属性集合Sij中加入文档号k;2)‑b在词共现网络的基础上融入语义信息构建语义词网络,具体步骤为:步骤2)‑b‑1)将目标语料库与外部语料库中词语的词向量数据对比,对于目标语料库未登录的词,设定相应词向量为空,即为后续无语义信息;步骤2)‑b‑2)设置阈值δ;步骤2)‑b‑3)对于词共现网络中每一对词节点wi和wj,按照如下公式计算词语对之间的语义相似度:其中,分别表示词wi和wj对应的词向量;步骤2)‑b‑4)判断每一对词节点wi和wj间是否有边连接;若是,转到步骤2)‑b‑5);否则,转到步骤2)‑b‑6);步骤2)‑b‑5)将语义相似度sij记入边属性rij=<Sij,sij>中,其中Sij为词对原本的共现文档号集合;步骤2)‑b‑6)判断语义相似度sij是否满足sij>δ;若是,转到步骤2)‑b‑7);否则,该词对节点不做任何操作;步骤2)‑b‑7)在边集合E中加入边集合eij,并在边属性集合R中加入属性对rij=<Sij,sij>,令sij=sim(wi,wj);步骤2)‑c对于语义词网络中每个词wi计算逆文档频率,公式如下:其中|d∈D:wi∈d|表示包含wi的文档的个数,ND表示语料库中文档总数;步骤2)‑d在语义词网络中寻找满足以下条件的语义词三角:语义词三角中的三个单词节点之间互相有边连接,且来自不同文档子网络的连接部分;步骤3,模型训练阶段:对步骤2得到的所有语义词三角,随机初始化语义词三角的主题分布;通过吉布斯采样得到当前语义词三角分布,并且由此计算文档主题分布和主题词语分布更新参数,循环迭代,直到达到最大迭代次数或吉布斯采样收敛,将最后得到的吉布斯采样结果作为词三角主题分布;步骤4,结果输出阶段:根据步骤3得到的语义词三角主题分布,推算出原文档的主题分布。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910400416.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top