[发明专利]一种面向大型活动公安系统警卫安保的多源异构数据分析方法在审
申请号: | 202010625497.1 | 申请日: | 2020-07-01 |
公开(公告)号: | CN111967494A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 李晓理;卜坤;王康 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06F16/35;G06N3/08;G06Q50/26 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 大型活动 公安系统 警卫 安保 多源异构 数据 分析 方法 | ||
1.一种面向大型活动公安系统警卫安保的多源异构数据分析方法,其特征在于:包括以下步骤:
步骤1:对网络社交账户所发布的文本内容进行情感分析,找出具有犯罪倾向的账户;利用Keras框架下的LSTM算法对网络社交文本数据进行情感评估,初步筛选出犯罪倾向人群;
步骤2:对犯罪倾向人员进行画像,利用Tensorflow框架下的LSTM算法对步骤1筛选出的重点账户内容与重点账户搜索记录进行中文文本多标签分类,对初步筛选出的犯罪倾向人群的学历、年龄、性别和籍贯信息进行推断;
步骤3:犯罪倾向人员轨迹分析与信息抽取模型;采用DBSCAN算法对犯罪倾向人员进行轨迹分析以及利用Python对社交账户进行信息抽取,对于频繁往返于目标地点的人群进行轨迹点聚类,结合轨迹产生时间进行综合分析;对社交账户进行监控,利用Python语言进行编程,对目标账户的聊天记录信息进行信息抽取得到情报。
2.根据权利要求1所述的一种面向大型活动公安系统警卫安保的多源异构数据分析方法,其特征在于:对网络社交账户所发布的文本内容进行情感分析,找出具有犯罪倾向的账户,具体方法如下:
文本向量化:Word2Vec算法在捕捉语境信息的同时压缩数据规模;Word2Vec实际上是两种不同的方法:Continuous Bag ofWords和Skip-gram;CBOW的目标是根据上下文来预测当前词语;Skip-gram根据当前词语来预测上下文;起初,每个单词都是一个随机的N维向量;经过训练之后,Word2Vec算法利用CBOW或者Skip-gram的方法获得每个单词的最优向量即词向量;词向量已经捕捉到上下文信息;利用基本代数公式来发现单词之间的关系;这些单词向量代替词袋模型用来预测未知数据的情感状况;
LSTM网络将词向量送入神经网络中,LSTM共有两条线,一条明线,包含当前时刻的数据流;一条暗线,包含这个细胞本身的记忆流;在“输入门”中,根据当前的数据流来控制接受细胞记忆的影响;接着,在“遗忘门”里,更新这个细胞的记忆和数据流;然后在“输出门”里产生输出更新后的记忆和数据流;
算法流程:加载训练文件并进行中文分词;创建词语字典,并返回每个词语的索引,词向量,以及每个句子所对应的词语索引;采用Python中的keras库实现LSTM网络并训练网络保存。
3.根据权利要求1所述的一种面向大型活动公安系统警卫安保的多源异构数据分析方法,其特征在于:对犯罪倾向人员进行画像,实现精准打击,有效预防,方法如下:
S1文本类别转换为Id,便于以后的分类模型的训练;
S2将文本类别转换成Id后,由于数据都是中文,对中文进行预处理工作,所有在使用这些文本数据之前要进行数据清洗;
S3数据预处理完成以后,接下来开始进行LSTM的建模工作:要将cut_review数据进行向量化处理,要将每条cut_review转换成一个整数序列的向量,设置最频繁使用的50000个词设置每条cut_review最大的词语数为250个;
S4定义LSTM的序列模型:模型的第一层是嵌入层Embedding,使用长度为100的向量来表示每一个词语;SpatialDropout1D层在训练中每次更新时,将输入单元的按比率随机设置为0;LSTM层包含100个记忆单元,输出层为包含10个分类的全连接层;由于是中文文本多标签分类,所以激活函数设置为'softmax',损失函数为分类交叉熵categorical_crossentropy。
4.根据权利要求1所述的一种面向大型活动公安系统警卫安保的多源异构数据分析方法,其特征在于:犯罪倾向人员轨迹分析与信息抽取模型;在上一步将处理后得到了人员画像,对于频繁往来于活动举办地与籍贯地之间的人员进行轨迹分析,轨迹数据选取微软亚洲研究院的Geolife轨迹数据,Geolife轨迹数据的GPS轨迹由一系列时间戳点表示,每个时间戳点包含纬度、经度和高度信息;首先读入数据,并选出需要的经纬度数据,在谷歌地图上展示用户轨迹,然后利用DBSCAN算法对数据集进行聚类后计算每个聚类的中心点;每一个聚类都表示用户经常到访该区域;假设用户的工作地点和居住地点就在这4个聚类中;重新读取数据,查看每个聚类中的小时分布并将工作地点和居住地点的推断在图上展示;对社交账户进行监控,抽取文本中的情报信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010625497.1/1.html,转载请声明来源钻瓜专利网。