[发明专利]一种线索挖掘方法、装置、设备以及计算机可读存储介质在审
申请号: | 202110789678.2 | 申请日: | 2021-07-13 |
公开(公告)号: | CN113378027A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 王顺;范渊;黄进 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/2455;G06F16/2458;G06Q50/18 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 高勇 |
地址: | 310000 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 线索 挖掘 方法 装置 设备 以及 计算机 可读 存储 介质 | ||
本申请公开了一种线索挖掘方法,包括:根据从违法网站提取出的情报要素确定要素提取规则;采集目标网站的网站内容;根据所述要素提取规则对采集的所述网站内容进行线索要素提取;重组提取的所述线索要素,构建线索要素库。应用该线索挖掘方法能够高效的挖掘涉网犯罪线索,有利于发现、打击涉网犯罪。本申请还公开了一种线索挖掘装置、设备及计算机可读存储介质,均具有上述技术效果。
技术领域
本申请涉及网站监督技术领域,特别涉及一种线索挖掘方法;还涉及一种线索挖掘装置、设备以及计算机可读存储介质。
背景技术
网络空间的无限扩展在给予人类便利的同时,也为犯罪提供了滋生的土壤。狭义的涉网犯罪是指以网络为侵害对象实施的犯罪行为。广义的涉网犯罪外延了网络犯罪的狭义说法,是指利用计算机网络实施的犯罪行为。目前,网络犯罪借助技术的发展更加隐蔽,变化形式多样,没有规律可循,给线索获取带来了严峻的挑战。现行的涉网犯罪线索的收集方法首先要根据案情在相关网站检索与案件有关的信息,当涉及到利用网站作为违法犯罪的载体时,从网站内容中可以直观获得嫌疑人联系方式、姓名、作案方式等简单信息,但在该过程中确认相关网站时需要耗费大量人力进行人工排查。同时涉及到网站的备案信息、IP信息、以及其他关联网站的域名、IP或者URL信息则无法直接获取。如果涉网犯罪的线索获取问题不能够得到有效解决,则无法进一步有效的开展涉网犯罪打击的工作。因此,如何高效的挖掘涉网犯罪线索已成为本领域技术人员亟待解决的技术问题。
发明内容
本申请的目的是提供一种线索挖掘方法,能够高效的挖掘涉网犯罪线索。本申请的另一个目的是提供一种线索挖掘装置、设备以及计算机可读存储介质,均具有上述技术效果。
为解决上述技术问题,本申请提供了一种线索挖掘方法,包括:
根据从违法网站提取出的情报要素确定要素提取规则;
采集目标网站的网站内容;
根据所述要素提取规则对采集的所述网站内容进行线索要素提取;
重组提取的所述线索要素,构建线索要素库。
可选的,所述根据从违法网站提取出的情报要素确定要素提取规则包括:
根据从违法网站提取出的情报要素确定相应的正则表达式。
可选的,所述正则表达式包括:URL对应的正则表达式、IP对应的正则表达式、姓名对应的正则表达式、昵称对应的正则表达式、邮箱对应的正则表达式、手机号对应的正则表达式、固定电话对应的正则表达式、ICP备案号对应的正则表达式、网络账号对应的正则表达式、身份证号对应的正则表达式以及地址对应的正则表达式。
可选的,所述根据所述要素提取规则对采集的所述网站内容进行线索要素提取包括:
根据正则表达式对采集的所述网站内容进行线索要素提取。
可选的,所述重组提取的所述线索要素构建线索要素库包括:
若提取到的所述线索要素归属于同一个主体,则将所述线索要素存储到要素关联库;
若提取到的所述线索要素归属于不同主体,则将所述线索要素存储到要素关系库;
将所述线索要素出现的时间以及所述线索要素出现的区域存储到要素分布库。
可选的,还包括:
根据提取的所述线索要素判断是否存在关联网站;
若存在,则采集所述关联网站的内容,并根据所述要素提取规则对采集的所述关联网站的网站内容进行线索要素提取,以及重组从关联网站的网站内容提取的所述线索要素,构建线索要素库。
可选的,还包括:
修改所述正则表达式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110789678.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种三维CAD云化引擎系统
- 下一篇:一种压合脱料机构