[发明专利]一种跨层级政府公文公告主题分析方法在审
申请号: | 201811613793.9 | 申请日: | 2018-12-27 |
公开(公告)号: | CN109710936A | 公开(公告)日: | 2019-05-03 |
发明(设计)人: | 闫盈盈;王进;阚丹会;丁剑飞;曹扬 | 申请(专利权)人: | 中电科大数据研究院有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 贵阳睿腾知识产权代理有限公司 52114 | 代理人: | 谷庆红 |
地址: | 550000 贵州省贵阳市贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 政府公文 层级 公告数据 概率主题模型 主题分析 空间线 时间线 构建 词语 分析 预处理 采样参数 动态时序 模型估计 同一层级 文本数据 演化过程 采样 走线 监管 支撑 决策 发现 | ||
1.一种跨层级政府公文公告主题分析方法,其特征在于:包括如下步骤:
(1)对公开的政府公文公告数据进行文本数据预处理;
(2)基于跨层级的政府公文公告数据构建基于空间线的动态层级概率主题模型;
(3)基于单一层级的政府公文公告数据构建基于时间线的动态时序概率主题模型;
(4)对模型中的超参数和隐变量进行采样,采样参数包括主题的分布、词语的分布、词语对应的主题;
(5)根据模型估计的分布进行主题演化分析。
2.如权利要求1所述的跨层级政府公文公告主题分析方法,其特征在于:所述政府公文公告数据,包括国家级公文公告、省级公文公告、市级公文公告、区县级公文公告。
3.如权利要求1所述的跨层级政府公文公告主题分析方法,其特征在于:所述步骤(4)中对模型中的超参数和隐变量进行采样,是采用Blocked Gibbs方法进行。
4.如权利要求1所述的跨层级政府公文公告主题分析方法,其特征在于:所述步骤(4)具体采用如下步骤:
(4.1)初始化马尔科夫链参数,包括各正态分布的方差参数{δ2,σ2,a2}以及每篇文章中所有词语的主题集合zd,i;
(4.2)采样主题分布的逻辑正态先验参数αi;
(4.3)采样未利用softmax归一化的单一层级或时间片中每篇文档的主题分布ηd,i;
(4.4)采样未利用softmax归一化的单一层级或时间片中所有文档的主题词语分布φk,i;
(4.5)给定ηd,i和φk,i,采样文档中每个词语wd,n的主题值zd,n,i。
5.如权利要求1所述的跨层级政府公文公告主题分析方法,其特征在于:所述步骤(5)中根据模型估计的分布进行主题演化分析,包括:
(5.1)基于空间线的主题演化分析;
(5.2)基于时间线的主题演化分析;
(5.3)基于空间线和时间线的联合主题演化分析。
6.如权利要求5所述的跨层级政府公文公告主题分析方法,其特征在于:所述基于空间线的主题演化分析是指,先分析同一主题下,国家、省、市、区县四个层级从上一层到下一层对主题的执行状况、彼此之间的主题依赖和独立关系、各主题分别侧重的子主题信息,然后分析政府发布的公文公告中各主题在各层级所占比例。
7.如权利要求5所述的跨层级政府公文公告主题分析方法,其特征在于:所述基于时间线的主题演化分析是指,分析同一主题下,不同时间片内,某一层级对某一主题的执行情况,分析该层级中不同时间片中政府公文公告的主题比例。
8.如权利要求5所述的跨层级政府公文公告主题分析方法,其特征在于:所述基于空间线和时间线的联合主题演化分析是指,利用不同层级的时间线动态时序概率主题模型研究交叉时间片下,从国家到省到市到区县的主题的执行情况,随时间线的空间线演化情况,分析政府公文公告主题信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司,未经中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811613793.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于文物知识图谱的博物馆导览与知识推荐方法
- 下一篇:依存句法树构建系统