[发明专利]基于时空语义知识迁移的社会治理热点话题自动识别方法有效
申请号: | 202111008079.9 | 申请日: | 2021-08-31 |
公开(公告)号: | CN113449111B | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 钱程扬;刘秀;杨亚宁;蒋如乔;张琪;郑胜利 | 申请(专利权)人: | 苏州工业园区测绘地理信息有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/9537;G06F40/30;G06Q50/26 |
代理公司: | 南京钟山专利代理有限公司 32252 | 代理人: | 王路 |
地址: | 215000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时空 语义 知识 迁移 社会 治理 热点话题 自动识别 方法 | ||
1.基于时空语义知识迁移的社会治理热点话题自动识别方法,其特征在于,包括如下步骤:
步骤1、获取政务案件信息历史数据并进行预处理;
步骤1中,政务案件信息历史数据包括业务归口分类分级、管理网格信息和案件文本信息,预处理包括对案件信息历史数据进行停用词与无效字符的清除以及地理空间信息的标准化
步骤2、构建案件语义标注体系并对经过预处理的政务案件信息历史数据进行标注获得样本数据集;
步骤2具体包括如下步骤:
步骤2.1、构建案件语义角色标注体系:案件语义角色标注体系使用BIO标注方法,配备一系列语义角色类型形成语义角色类型集,语义角色类型包括案件地点、时间、案件主体、案件谓词、案件措施,使用BIO标注方法来为案件文本信息中的每个字符标注其所属的语义角色类型;
步骤2.2、对经过预处理的政务案件信息历史数据进行标注并获得样本数据集:从预处理后的政务案件信息历史数据中随机选择一定比例的数据作为训练数据,剩余比例的数据同时作为验证数据和测试数据,训练数据中包括案件文本信息,按照步骤2.1构建的案件语义角色标注体系,对案件文本信息进行逐字符标注,从案件文本信息的第1个字符开始,根据语义角色类型,使用BIO标注方法对所有字符进行遍历,并对能够匹配上的语义角色类型的字符进行标注,对于多个连续字符被标注为同一语义角色类型的情况,则多个连续字符构成一个词语,记录该词语在案件文本信息中的起点位置与结束位置,同时记录此条标注的标识码,完成标注工作后,获得样本数据集;
步骤3、基于样本数据集,获取候选高发区并训练候选高发区时空语义表征向量;
步骤3具体包括如下步骤:
步骤3.1、获取案件地点术语所对应的地理空间坐标位置:任意一个案件地点术语,均获得一个与之对应的地理空间坐标位置,所有案件地点术语集合表示为Te={t1,t2,...,to},所有案件地点的地理空间坐标位置集合表示为Le={l1,l2,...,lo},其中,o为案件地点总数,to为第o个案件地点的术语,lo为第o个案件地点的地理空间坐标位置;
步骤3.2、基于样本数据集中案件地点术语所对应的地理空间坐标位置,采用案件地点聚类与凸域空间分割来确定候选高发区;
步骤3.2.1、基于步骤3.1标定的所有案件地点的地理空间坐标位置集合,获得政务案件信息历史数据的热点空间模式,计算方法是对样本数据集的地理空间坐标位置进行空间聚类,采用均值漂移算法来获得聚类中心点集合,所述聚类中心点集合为热点中心集合;
步骤3.2.2、采用Voronoi空间剖分算法,在样本数据集所在的总体空间区域范围内,对热点中心集合中的每个热点中心进行凸域空间分割,从而获得以热点中心的地理空间坐标位置为中心的Voronoi分割空间多边形,Voronoi分割空间多边形构成的区域用来表征政务案件信息历史数据中的候选高发区;
步骤3.3、训练候选高发区节点时空语义表征向量;
步骤3.3具体为:
步骤3.3.1、根据已知业务种类数量U,将样本数据集分为U个不同的分组;
步骤3.3.2、对于每个分组,获取分组内每条样本所对应的地理空间坐标位置,通过空间包含关系运算,计算出每条样本的地理空间坐标位置所属的Voronoi分割空间多边形,并记录其Voronoi分割空间多边形编号,同时该Voronoi分割空间多边形所对应的样本数量增加1;然后,遍历组内样本,构建组内图结构GroupGraph(V,E),其中,V代表Voronoi分割空间多边形的集合,每个Voronoi分割空间多边形对应一个样本数量,用于表示分组内发生在Voronoi分割空间多边形中的样本数量;E表示每个Voronoi分割空间多边形之间的边;
步骤3.3.3、对每一组样本采用距离优化下的随机游走算法并获取候选高发区序列,当前样本组使用图结构GroupGraph(V,E),V={v1,v2,...,vi,...,vn}来表示,其中,n为当前组内的Voronoi分割空间多边形数量,vn表示第n个Voronoi分割空间多边形所代表的图节点,从Voronoi分割空间多边形中随机选取一个节点vi作为采样起点后,使用随机游走算法,获取沿图节点的游走路径,则随机游走所途经的m个图节点构成的一个完整的候选高发区序列,标记为其中,为第m个图节点;
步骤3.3.4、基于Skip-gram模型对候选高发区序列进行节点模型训练,并获得图节点的时空语义表征向量;
步骤4、构建全局语义深度表征学习模型,所述全局语义深度表征学习模型通过融合候选高发区时空语义表征向量,获得BIO语义角色标记预测结果和案件全局语义表征向量;
步骤5、基于全局语义深度表征学习模型,识别输入的案件数据集的前K个热点话题并自动生成代表性关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州工业园区测绘地理信息有限公司,未经苏州工业园区测绘地理信息有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111008079.9/1.html,转载请声明来源钻瓜专利网。