[发明专利]一种用户代理字段信息处理方法和系统在审
申请号: | 201710447030.0 | 申请日: | 2017-06-14 |
公开(公告)号: | CN107368532A | 公开(公告)日: | 2017-11-21 |
发明(设计)人: | 魏晓林 | 申请(专利权)人: | 上海斐讯数据通信技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州千克知识产权代理有限公司33246 | 代理人: | 周希良,吴辉辉 |
地址: | 201616 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 代理 字段 信息处理 方法 系统 | ||
1.一种用户代理字段信息处理方法,其特征在于,包括以下步骤,
定义步骤,定义用户代理字段的标准格式;
录入步骤,基于用户代理字段的标准格式,建立用户代理字段库,对不同用户代理字段的格式进行统计和梳理,录入用户代理字段库;
精检步骤,获取用户代理字段中的属性信息,并通过用户代理字段库精确检测用户代理字段。
2.根据权利要求1所述的一种用户代理字段信息处理方法,其特征在于,在录入步骤和精检步骤之间还有信息拓展步骤,
遍历检测和获取不同结构规范下的用户代理字串,并对获取的字段信息进行扩展查询,完善用户代理字段信息库。
3.根据权利要求2所述的一种用户代理字段信息处理方法,其特征在于,所述精检步骤包括以下步骤,
步骤一,读取用户网络行为日志信息,提取出用户代理字串;
步骤二,根据用户代理字串基本结构的共性,确定属性信息在用户代理字串中的位置;
步骤三,从属性信息对应的位置提取字段信息;
步骤四,将字段信息作为关键字,并与用户代理字段库匹配;
步骤五,将与关键字匹配成功的对应信息完整提取并显示;
步骤六,读取下一条用户网络行为日志信息,重复步骤一至步骤六操作,直至结束。
4.根据权利要求3所述的一种用户代理字段信息处理方法,其特征在于,在步骤五中如果匹配不成功,还有补全步骤S5,补全步骤S5分为以下步骤,
S5.1,将用户代理字段中的信息填充到用户代理字段库的对应位置;
S5.2,将所填充信息中的硬件信息作为关键字,提取出该硬件信息中的专有信息;
S5.3,通过网络爬虫技术,按照网站的面包屑特性,精确定位到该设备类型所在的统一资源定位符信息;
S5.4,采用迭代的方法,对该统一资源定位符下的所有网站信息进行层层爬取,同专有信息进行匹配,如果匹配成功,则找到该硬件设备所在的网页信息,并对用户代理字段库中其他字段信息进行完善,爬虫结束;若匹配失败,则爬虫结束。
5.根据权利要求3所述的一种用户代理字段信息处理方法,其特征在于,在步骤四中还包括信息淘汰步骤,
将从未曾匹配过的或者已经长时间未匹配过的用户代理字段库中的数据删除。
6.根据权利要求3所述的一种用户代理字段信息处理方法,其特征在于,在步骤五中还包括选显步骤,
对被显示的信息进行选择性显示。
7.一种采用上述权利要求1-6之一用户代理字段信息处理系统,其特征在于,包括读取模块、定位模块、提炼模块、匹配模块和展现模块,所述定位模块连接所述读取模块,所述提炼模块连接所述定位模块,所述匹配模块连接所述提炼模块,所述展现模块连接所述匹配模块,所述读取模块用于读取用户网络行为日志信息并提取出用户代理字串,所述定位模块用于确定用户代理字串中指定信息的位置,所述提炼模块用于将指定信息从用户字串中提炼出来,所述匹配模块用于将提炼出的指定信息与用户代理字段库数据进行匹配,所述展现模块用于将匹配成功的数据进行完整显示。
8.根据权利要求7所述的一种用户代理字段信息处理系统,其特征在于,还包括信息录入模块,所述信息录入模块连接所述匹配模块,所述信息录入模块用于用户代理字段库内容的编写、录入和完善。
9.根据权利要求7所述的一种用户代理字段信息处理系统,其特征在于,还包括补全模块,所述补全模块连接所述匹配模块,所述补全模块用于将无法匹配用户代理字段库的信息录入用户代理字段库并做补全完善操作。
10.根据权利要求7所述的一种用户代理字段信息处理系统,其特征在于,还包括信息淘汰模块,所述淘汰模块连接所述匹配模块,所述淘汰模块用于对用户代理字段库内容排查并删去无用信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海斐讯数据通信技术有限公司,未经上海斐讯数据通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710447030.0/1.html,转载请声明来源钻瓜专利网。