[发明专利]一种基于信息重组的数据信息提取方法和系统在审

专利信息
申请号: 201710464295.1 申请日: 2017-06-19
公开(公告)号: CN107391573A 公开(公告)日: 2017-11-24
发明(设计)人: 魏晓林 申请(专利权)人: 上海斐讯数据通信技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州千克知识产权代理有限公司33246 代理人: 周希良,吴辉辉
地址: 201616 *** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 信息 重组 数据 提取 方法 系统
【说明书】:

技术领域

本发明涉及数据处理领域,尤其涉及一种基于信息重组的数据信息提取方法和系统。

背景技术

当今社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,随着网络云时代的到来,“大数据”这个高科技时代的产物也吸引了越来越多的关注,最早提出“大数据”的是全球知名咨询公司麦肯锡,麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”由此可见,对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键;然每个行业所需的数据不同,数据获取的途径也不尽相同,但有一种获取途径不同的行业均可加以利用,那就是网络。随着网络的高速发展,人们对网络的依赖也逐步加深;网络管理中的“以人为本”理念促生了一种基于用户网络行为的网络管理模型,对用户网络行为的同一个样本,从不同领域多维度进行分析,获取该样本在不同领域之间的行为关联性,从而准确的对该样本的用户行为和信息进行预测,从而获取用户社交关系、偏好习惯和消费行为等信息。

针对用户的网络行为数据,如何进行数据搜集呢?现有技术中有很多种数据提取的方案,其中有一种采用统一资源定位符(URL)网络爬虫技术获取数据的方案,所谓网络爬虫就是对用户的上网行为信息和用户个人基本信息进行抓取和清洗;在实际运用中大部分平台的URL都进行了加密操作,网络爬虫技术并不能直接获取,那么如何对加密的数据进行信息提取,为探索用户上网行为、获取用户基本信息和利用同源样本数据的多领域信息验证,提供数据依据,也是人们需要研究的课题。

如公告号为CN103475474B的发明专利公开了“一种提供、获取共享的加密数据的方法及身份认证设备”,由数据提供方的身份认证设备获取加密数据的对称密钥,获取数据获取方的身份认证设备的证书,利用获取的证书对加密数据的对称密钥进行加密,得到第二密钥,数据获取方的身份认证设备获取数据提供方共享的加密数据和第二密钥,利用自身存储的第二私钥对第二密钥进行解密,从而得到加密数据的对称密钥,最后利用加密数据的对称密钥对加密数据进行解密以获取数据,此方法是基于数据共享后的数据解码和提取,技术的实现难度相对较高。

又如公告号为CN105407481A的发明申请公开的“上网数据的获取方法”,包括以下步骤:在路由器内核中添加钩子函数以获取用户的上网数据;从所述上网数据中获取目标数据,并将目标数据存储至存储单元;当所述目标数据满足预设条件时,上传所述目标数据至目标地址。通过添加钩子函数,提高了数据获取的灵活性;还可以将目标数据上传至目标地址中,从而释放存储单元的容量,进而提高了设备的性能;但获取数据时需要通过路由器来实现,实际运用范围不广泛。

发明内容

本发明要解决的技术问题是针对上述现有技术的不足,提供一种数据提取简单方便,运用范围广,能够快速准确获取数据信息甚至是加密性数据信息的基于信息重组的数据信息提取方法和系统。

为了实现上述目的,本发明采用的技术方案为:

一种基于信息重组的数据信息提取方法,所述方法包括以下步骤:

S10:获取统一资源定位符对应的结构特征;

S20:提取所述统一资源定位符中的关键字段;

S30:重组所述关键字段得到新的统一资源定位符;

S40:获取所述新的统一资源定位符所对应的网页中携带的信息。

进一步地,在所述步骤S10之前还包括以下步骤:

S01:提取用户网络日志中统一资源定位符信息字段;

S02:判断所述统一资源定位符信息字段所属的网站平台;

S03:获取该所属网站平台设定的统一资源定位符结构特征。

进一步地,所述步骤S10采用的获取方法是:通过该统一资源定位符所属网站平台的统一资源定位符结构特征设定来获取对应的结构特征。

进一步地,所述步骤S20根据统一资源定位符对应的结构特征,利用正则匹配法对所述统一资源定位符信息中的关键字段进行提取。

进一步地,所述步骤S30中将所述关键字段以其所属网站平台游客状态下的统一资源定位符结构特征进行相同形式的重组。

进一步地,所述步骤S40中利用网络爬虫技术,获取所述新的统一资源定位符所对应的网页中携带的信息。

一种基于信息重组的数据信息提取系统,所述系统包括:

特征获取模块,用于获取统一资源定位符对应的结构特征;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海斐讯数据通信技术有限公司,未经上海斐讯数据通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710464295.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top