[发明专利]一种面向水利文本的主题演化关系挖掘方法在审
| 申请号: | 202210294529.3 | 申请日: | 2022-03-24 |
| 公开(公告)号: | CN114647722A | 公开(公告)日: | 2022-06-21 |
| 发明(设计)人: | 陆佳民;马族隆;冯钧 | 申请(专利权)人: | 河海大学 |
| 主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/33;G06F40/242;G06F40/258;G06F40/284;G06F40/289 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210024 *** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 面向 水利 文本 主题 演化 关系 挖掘 方法 | ||
1.一种面向水利文本的主题演化关系挖掘方法,其特征在于,包括以下步骤:
(1)对预先获取的语料进行预处理,形成“文本-单词矩阵”数据集;
(2)使用LDA模型对数据集进行聚类处理,生成文档-主题矩阵与主题-词矩阵,为后续主题演化挖掘提供支持;
(3)将主题演化关系挖掘分为主题间相互作用关系挖掘和主题演化路径挖掘;主题间相互作用关系挖掘利用先建模主题演化模型,聚焦于不同主题个体间的相互影响情况;
(4)主题演化路径挖掘利用离散时间主题演化模型,从整体层面鸟瞰学科的发展脉络。
2.根据权利要求1所述的一种面向水利文本的主题演化关系挖掘方法,其特征在于,所述步骤(1)包括以下步骤:
(11)通过网络爬虫获取国内中文水利类期刊上发表的论文摘要文本,每篇文本均以TXT格式独立存储,文件名以“时间”加“论文标题”的形式命名;
(12)对获取的语料进行文本分词、水利领域词典构建、去停用词、去高频词和去低频词处理,形成“文本-单词矩阵”的数据集;所述水利领域词典构建通过水利公文主题词表,搜狗细胞词库和算法扩充实现;其中算法扩充是在导入自定义词库前,经过jieba分词后的一个个词项构成了一个项集,每篇文档中的每一个句子对应一个事务,所有句子的集合构成了一个数据库,对其采用关联规则挖掘算法,将能够挖掘出词项构成的频繁k项集和关联规则;如果挖掘出规则X→Y,则说明在规则的前提X出现的情况下,规则的结论Y也经常出现;由此认为XY属于一个整体,从而找出文档集包含的水利领域名词。
3.根据权利要求1所述的一种面向水利文本的主题演化关系挖掘方法,其特征在于,所述步骤(2)包括以下步骤:
(21)设置文档集的主题数目K,以及Dirichlet先验分布的参数和
(22)为文档集中每篇文档的每个词项随机分配一个主题;
(23)为每个词项都重新采样一个新的主题,并不断重复,直至采样收敛;
(24)统计文档集中每篇文档的主题分配,得到每篇文档下的主题分布矩阵θm;统计每个主题的词语分布,得到每个主题下的词项分布矩阵dk。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210294529.3/1.html,转载请声明来源钻瓜专利网。





