[发明专利]一种跨层级政府公文公告主题分析方法在审
申请号: | 201811613793.9 | 申请日: | 2018-12-27 |
公开(公告)号: | CN109710936A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 闫盈盈;王进;阚丹会;丁剑飞;曹扬 | 申请(专利权)人: | 中电科大数据研究院有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 贵阳睿腾知识产权代理有限公司 52114 | 代理人: | 谷庆红 |
地址: | 550000 贵州省贵阳市贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 政府公文 层级 公告数据 概率主题模型 主题分析 空间线 时间线 构建 词语 分析 预处理 采样参数 动态时序 模型估计 同一层级 文本数据 演化过程 采样 走线 监管 支撑 决策 发现 | ||
本发明提供了一种跨层级政府公文公告主题分析方法,包括如下步骤:(1)对公开的政府公文公告数据进行文本数据预处理;(2)基于跨层级的政府公文公告数据构建基于空间线的动态层级概率主题模型;(3)基于单一层级的政府公文公告数据构建基于时间线的动态时序概率主题模型;(4)对模型中的超参数和隐变量进行采样,采样参数包括主题的分布、词语的分布、词语对应的主题;(5)根据模型估计的分布进行主题演化分析。本发明从空间线出发分析政府公文公告的主题随层级的演化过程,从时间线出发分析同一层级政府公文公告的主题随时间的演化情况,并将两个走线结合共同发现和分析主题演化所揭示的政府公文公告事宜,为政府高效监管和决策提供辅助和支撑。
技术领域
本发明涉及一种跨层级政府公文公告主题分析方法。
背景技术
随着大数据时代的到来,政府部门中产生了大量的政府公文公告 数据。政府部门越来越重视利用大数据技术和文本信息处理手段进行 政府数据之间的关联挖掘和分析。国家级、省级、市级这种跨层级的 政府公文公告数据背后存在盘根错节的复杂关系和潜在关联。
目前,依旧缺少对政府的公文公告数据进行分析并辅助政府单位 进行决策的方法。概率主题模型方法作为大数据技术方法和文本信息 处理的有效方法之一,能够从空间线和时间线发现和挖掘各级政府公 文公告中潜在的主题及其演化信息,一定程度上能够满足政府科学 化、精细化的管理需求。
发明内容
为解决上述技术问题,本发明提供了一种跨层级政府公文公告主 题分析方法,该跨层级政府公文公告主题分析方法从空间线出发分析 政府公文公告的主题随层级的演化过程,从时间线出发分析同一层级 政府公文公告的主题随时间的演化情况,并将两个走线结合共同发现 和分析主题演化所揭示的政府公文公告事宜,为政府高效监管和决策 提供辅助和支撑。
本发明通过以下技术方案得以实现。
本发明提供的一种跨层级政府公文公告主题分析方法,包括如下 步骤:
(1)对公开的政府公文公告数据进行文本数据预处理;
(2)基于跨层级的政府公文公告数据构建基于空间线的动态层级 概率主题模型;
(3)基于单一层级的政府公文公告数据构建基于时间线的动态时 序概率主题模型;
(4)对模型中的超参数和隐变量进行采样,采样参数包括主题的分 布、词语的分布、词语对应的主题;
(5)根据模型估计的分布进行主题演化分析。
所述政府公文公告数据,包括国家级公文公告、省级公文公告、 市级公文公告、区县级公文公告。
所述步骤(4)中对模型中的超参数和隐变量进行采样,是采用 Blocked Gibbs方法进行。
所述步骤(4)具体采用如下步骤:
(4.1)初始化马尔科夫链参数,包括各正态分布的方差参数{δ2,σ2, a2}以及每篇文章中所有词语的主题集合zd,i;
(4.2)采样主题分布的逻辑正态先验参数αi;
(4.3)采样未利用softmax归一化的单一层级或时间片中每篇文档 的主题分布ηd,i;
(4.4)采样未利用softmax归一化的单一层级或时间片中所有文档 的主题词语分布φk,i;
(4.5)给定ηd,i和φk,i,采样文档中每个词语wd,n的主题值zd,n,i。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司,未经中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811613793.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于文物知识图谱的博物馆导览与知识推荐方法
- 下一篇:依存句法树构建系统