[发明专利]一种食药环热线类事件犯罪线索筛查方法及系统在审
| 申请号: | 202210450556.5 | 申请日: | 2022-04-27 |
| 公开(公告)号: | CN115129808A | 公开(公告)日: | 2022-09-30 |
| 发明(设计)人: | 甄沐华;陈鹏;范子杨;王者 | 申请(专利权)人: | 中国人民公安大学 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/284;G06F40/289;G06F40/30;G06Q50/18 |
| 代理公司: | 北京天悦专利代理事务所(普通合伙) 11311 | 代理人: | 田明;任晓航 |
| 地址: | 100038 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 食药环 热线 事件 犯罪 线索 方法 系统 | ||
本发明涉及一种食药环热线类事件犯罪线索筛查方法,属于线索筛查领域,所述方法基于词库构建步骤,通过利用中文数据关键信息抽取及词向量模型近似度匹配等自然语言处理方法,对关键词词汇信息进行识别提取以及扩展,对基本词集进行词义近似匹配,建立较为完整全面的犯罪线索专业词库,进而进行犯罪线索筛查。采用本发明公开的一种食药环热线类事件犯罪线索筛查方法,能够实现对数据中犯罪线索的科学、有效筛查,提升食药环业务部门的工作效率。
技术领域
本发明属于线索筛查领域,具体涉及一种食药环热线类事件犯罪线索筛查方法及系统。
背景技术
利用信息化处理技术处理特定业务使得特定部门提高了工作效率与打击特定行为的准确率。在此背景之下,特定部门对民生类特定行为事件接报和处理不再仅限于传统的自接特定行为事件接报,还能够通过网络舆情监测、第三方数据合作来实现。
对于中文文本事件关键信息的提取流程大多首先通过人工标记与挑选或者基于传统权重计算方法去衡量与选择,其次基于参考词林对事件关键信息进行迭代识别,最后通过语义近似匹配等相关算法进行事件关键词的扩充,如刘耕等采用基于广义的jaccard系数方法来计算得到敏感词的相关联词汇。关键词词库的构建可根据应用场景的不同来构建,构建的方法往往是基于各专业领域数据集,采用文本关键词提取方法,融合词频、词长、词语位置、近义词等影响因素建立词库。夏松等针对微博类社交平台短文本的特点设计LBCP抽词算法并结合语义近似匹配扩充种子词集来得到网络谣言敏感词库;刘亚桥等提出用TF-IDF训练结果词集及人工摄影情感基础词集对Word2Vec训练结果集进行领域重要程度修正,产生摄影领域情感词集;谭敏博通过对谷类作物病害相关数据建立Mysql数据库并以词频抽取法谷类作物病害特征数据表,实现对谷类作物病害特征属性识别的精准查询和个性化推送;侯丽采用N-Gram及各种过滤规则结合的术语识别公众日志数据,能较好地识别发现健康类词集;C.Quan等从情感类别符号、情绪强度、情感词、程度词、否定词、连词、修辞等识别情感种子词,从而完成情感词典的构建;F.Peng等利用线性链条件随机场(CRFs)来对不同结构的中文文本分词,进一步使用基于概率的检测方法进行新词识别检测;周强提出了一种多资源融合自动构建汉语谓词组合范畴语法(CCG)词库的方法,根据不同句法语义分布特征,融合形成CCG原型范畴表示,通过与资源信息的谓词匹配并完全重合后形成核心词库;K.J.Chen等通过统计信息以及语法语义上下文等信息进行新词识别;彭云等基于商品评论文本,从词义理解、句法分析等角度获得词语间语义关系,提出基于语义关系约束的主题模型SRC-LDA实现主题词的提取。
鉴于中文文本分析时需要解决不可避免的语义问题,在构造词库时,不能仅仅以基本词集作为未成型的专业词库,而仍然需要对基本词集进行词义近似匹配,扩充后得到较为完整的专业词库。词汇扩展与关键字扩展相似,通过词义近似或语义近似展开。H.Chen等以词典作未近似语义信息的词扩展集;S.Yu等通过调用嵌入在Web浏览器中的分析器来获取DOM结构以及视觉相关信息(所有视觉信息都来自HTML元素和属性)进行查询扩展;J.M.Pnote和W.B.Croft提出了将统计语言模型和信息检索相结合,使用词频和文档频率按综合频率对词信息进行排序;T.Pedersen和A.Kulkarni通过聚类实现类似的词的识别并应用于语义扩展;P.D.Turney等通过计算倾向性基准词与目标词汇间相似度的方法识别词汇语义倾向性;A.Neviarouskaya等通过同义词和反义词的关系、上下文语义关系、推导关系以及与已知的词汇单位复合来进行情感词典的扩展。
而信息化处理技术当前在食药环领域特定行为打击和民生热点监测监管的应用尚处于起步阶段。目前,我国食药环特定行为事件数据主要来源于市民热线的投诉举报类信息,处理方法也仅处于人工筛查阶段。食药环特定部门使用信息化处理技术尚存在情报来源不广泛,处理数据效率低,数据利用率低等问题。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种食药环热线类事件犯罪线索筛查方法及系统,所述方法基于词库构建步骤,能够对食药环数据犯罪关键信息进行抽取、对犯罪线索进行筛查与推送。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民公安大学,未经中国人民公安大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210450556.5/2.html,转载请声明来源钻瓜专利网。





