[发明专利]一种面向网格事件分类分级处置的单维聚类分析方法在审
申请号: | 201911143455.8 | 申请日: | 2019-11-20 |
公开(公告)号: | CN111723136A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 钱华;姜永华;钱建华;王巧荣;房查;张宏斌 | 申请(专利权)人: | 中共南通市委政法委员会;江苏飞搏软件股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28;G06Q10/06;G06Q50/26 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 周新亚 |
地址: | 226000 江苏省南通市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 网格 事件 分类 分级 处置 聚类分析 方法 | ||
1.一种面向网格事件分类分级处置的单维聚类分析方法,其特征在于,所述方法包括以下步骤:
步骤(1)获取网格事件记录;
步骤(2)对获取的网格事件记录进行清洗,仅保留网格事件情况文本;
步骤(3)利用BERT模型提取网格事件情况文本的语义特征,生成多维特征向量;
步骤(4)利用单维聚类算法对网格事件情况数据进行聚类;
步骤(5)生成K个不同类型的网格事件类型簇,并存入到HBASE中;
步骤(6)识别高发的网格事件类型。
2.根据权利要求1所述的一种面向网格事件分类分级处置的单维聚类分析方法,其特征在于,所述步骤(1)具体为:从多源数据库中抽取网格事件记录。
3.根据权利要求1所述的一种面向网格事件分类分级处置的单维聚类分析方法,其特征在于,所述步骤(2)具体为:利用ETL工具对抽取的网格事件记录进行清洗,去除事件发生地点、事件发生时间等字段,仅保留事件情况文本。
4.根据权利要求1所述的一种面向网格事件分类分级处置的单维聚类分析方法,其特征在于,所述步骤(3)具体为:输入网格事件情况文本,利用BERT模型对文本进行权重值计算,输出文本的多维语义特征向量。
5.根据权利要求1所述的一种面向网格事件分类分级处置的单维聚类分析方法,其特征在于,所述步骤(4)包括以下子步骤:
(41)计算任意一个预选的网格事件情况文本与剩余各个网格事件情况文本之间的相似度值simVal;计算过程1)利用计算公式simVal=cX1+dX2
C预设的取值范围:(0.8-0.9)c为权重参数;
D预设的取值范围:(0.1-0.2)d为权重参数;
X1:向量夹角余弦值;
X2:向量欧氏距离归一值;
(42)根据相似度值计算结果,生成N个包含与任意一个预选的网格事件情况文本相似的所有网格事件情况文本的簇;
(43)选取N个网格事件情况文本簇所对应的N个预选的网格事件情况文本作为中心文本;
(44)计算N个中心文本中的任意两个中心文本之间的相似度值simVal;
计算过程1)利用计算公式simVal=cX1+dX2
c值为0.9,c为权重参数;
d值为0.1,d为权重参数;
X1:向量夹角余弦值;
X2:向量欧氏距离归一值;
(45)如果任意两个中心文件相似,则删除包含任意两个中心文本的两个簇中较小的簇;如果任意两个中心文件不相似,则保留包含任意两个中心文本的两个簇;
(46)输出初始聚类生成的M个簇;
(47)对输出的M个簇进行二次去重,M小于N。
6.根据权利要求1所述的一种面向网格事件分类分级处置的单维聚类分析方法,其特征在于,所述步骤(6)具体为,将K个不同类型的网格类型簇按降序排列,识别高发的网格事件类型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中共南通市委政法委员会;江苏飞搏软件股份有限公司,未经中共南通市委政法委员会;江苏飞搏软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911143455.8/1.html,转载请声明来源钻瓜专利网。