[发明专利]一种面向水利文本的主题演化关系挖掘方法在审
| 申请号: | 202210294529.3 | 申请日: | 2022-03-24 |
| 公开(公告)号: | CN114647722A | 公开(公告)日: | 2022-06-21 |
| 发明(设计)人: | 陆佳民;马族隆;冯钧 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/33;G06F40/242;G06F40/258;G06F40/284;G06F40/289 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210024 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 水利 文本 主题 演化 关系 挖掘 方法 | ||
本发明公开了一种面向水利文本的主题演化关系挖掘方法,首先,对预先获取的语料进行预处理,形成“文本‑单词矩阵”数据集;其次,使用LDA模型对数据集进行聚类处理,生成文档‑主题矩阵与主题‑词矩阵,为后续主题演化挖掘提供支持;然后,将主题演化关系挖掘分为主题间相互作用关系挖掘和主题演化路径挖掘;主题间相互作用关系挖掘利用先建模主题演化模型,聚焦于不同主题个体间的相互影响情况;最后,主题演化路径挖掘利用离散时间主题演化模型,从整体层面鸟瞰学科的发展脉络。本发明实现了对不同时间阶段的水利主题间演化关系的准确、高效挖掘,对研究员厘清行业发展脉络、选择更有前景的研究领域起到了重要的作用。
技术领域
本发明属于主题挖掘领域,具体涉及一种面向水利文本的主题演化关系挖掘方法。
背景技术
主题演化关系挖掘与主题挖掘同属于数据挖掘领域,前者通过挖掘文本数据的主题演化关系,可以清晰地展示出主题随时间推移的演进变化以及不同主题之间的产生的交集,发现主题可能涉及的不同阶段(如爆发和低谷)和演化模式。探索主题演化的路径,特别是论文数据集中学科主题的形成和衰退,对研究人员理解行业发展、挖掘新兴业务甚至进一步预测未来的演化的趋势都具有重要的作用。
在水利领域中,由于近年来水利信息化与智慧水利的不断推进,越来越多的水利文献数据涌现在互联网上。不同的用户对于这些行业数据有着不用的关注点,简单依赖行业专家进行分析无法满足人们对信息进行获取的需求,因此行业内迫切需要主题演化关系挖掘技术来帮助人们提取信息。特别是在一些学科交叉领域,例如智慧水利领域,其融合了水利、环境、计算机、通信等多个学科。这个特点也导致了水利领域通常涉及的主题数目较多,而不同主题之间的关系也更为繁杂,同时具有较强的时序性。基于上述现状,亟需一种面向文本数据的水利业务主题与演化关系挖掘方法,来帮助用户厘清行业发展脉络,选择更有前景的研究领域。
现有的主题演化挖掘方法对主题演化关系的挖掘并不全面,并且水利业务主题存在着大量的交叉领域,主题间的关系盘根错节这种情况,依靠单一的主题演化挖掘方法往往无法奏效。因此,针对上述问题,本文将结合先建模和离散时间的思想,提出主题关系分类方法,改进主题相似度计算公式,从主题间相互关系与主题演化路径两个方面对水利主题进行挖掘,帮助行业人员厘清行业发展脉络,选择更有前景的研究领域。
发明内容
发明目的:为克服上述现有技术的不足,本发明提出一种面向水利文本的主题演化关系挖掘的实现方法,从主题相互作用关系和主题演化路径两个层面进行挖掘分析,实现了对不同时间阶段的水利主题间演化关系的准确、高效挖掘。
技术方案:本发明提供一种面向水利文本的主题演化关系挖掘的实现方法,包括以下步骤:
(1)对预先获取的语料进行预处理,形成“文本-单词矩阵”数据集;
(2)使用LDA模型对数据集进行聚类处理,生成文档-主题矩阵与主题-词矩阵,为后续主题演化挖掘提供支持;
(3)将主题演化关系挖掘分为主题间相互作用关系挖掘和主题演化路径挖掘;主题间相互作用关系挖掘利用先建模主题演化模型,聚焦于不同主题个体间的相互影响情况;
(4)主题演化路径挖掘利用离散时间主题演化模型,从整体层面鸟瞰学科的发展脉络。
进一步地,所述步骤(1)包括以下步骤:
(11)通过网络爬虫获取国内中文水利类期刊上发表的论文摘要文本,每篇文本均以TXT格式独立存储,文件名以“时间”加“论文标题”的形式命名;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210294529.3/2.html,转载请声明来源钻瓜专利网。





