[发明专利]一种用户代理字段信息处理方法和系统在审
申请号: | 201710447030.0 | 申请日: | 2017-06-14 |
公开(公告)号: | CN107368532A | 公开(公告)日: | 2017-11-21 |
发明(设计)人: | 魏晓林 | 申请(专利权)人: | 上海斐讯数据通信技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州千克知识产权代理有限公司33246 | 代理人: | 周希良,吴辉辉 |
地址: | 201616 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用户 代理 字段 信息处理 方法 系统 | ||
技术领域
本发明涉及网络数据领域,具体涉及一种用户代理字段信息处理方法和系统。
背景技术
目前,智能设备的普及度和使用率都达到了很高的水准,对使用于智能设备上的各种应用软件的数据进行分析这一领域也逐渐成为各大数据处理厂家的战略重点,对这种大数据的处理分析可以得到不同使用者甚至全社会的操作习惯或者生活习性,从而对使用者进行全方位的分析,甚至做出准确的行为预判。其中,大数据的处理多数情况下会从用户代理字段作为切入点下手,即在对用户网络行为进行分析时,发现用户终端网络行为日志信息中的用户代理字段包含大量的用户信息,比如所使用的硬件机型、浏览器信息系和操作系统信息,通过对这些信息进行统计分析,能够得到一个家庭内部电子产品、应用软件和浏览器等使用情况,为各个软硬件厂家的研发和生产提供用户使用频度、喜好、偏好的评估数据依据。
但是由于用户代理字段结构的制定厂商比较多,并都想成为用户代理字段规则的唯一制定着,因此在这种激烈竞争下,造成用户代理字段呈现不规则现象,种类繁多,因此用户代理字段结构信息检测不精确。如申请号为CN200810094108.6的中国申请文件公布了一种网站页面信息统计方法及装置,该技术方案中包括“从超文本传输协议请求中提取用户代理字段;将所述用户代理字段中的操作系统相关信息,与检索树中的机器人禁止列表和浏览器允许列表分别进行匹配,生成匹配结果;所述匹配是将所述操作系统相关信息中的每个字母依次与所述检索树中的节点进行匹配”,在对用户代理字段中的信息进行匹配时,由于是“每个字母依次与所述检索树中的节点进行匹配”,这样会大大降低匹配效率,尤其是遇到不同的用户代理字段结构不同,还有可能会错失部分匹配。
针对这个问题,本专利通过对用户代理字段发展变迁过程和目前存在的用户代理字段中不同内容的进行分析,建立浏览器编码库、操作系统编码库、机型列表、厂商列表和浏览器类别库等用户代理字段信息库,并定期对该用户代理字段信息库中的信息进行维护和更新,来提高用户代理字串检测的准确度。
发明内容
本发明的目的是提供一种用户代理字段信息处理方法和系统,通过对用户代理字段结构的变迁过程,以及各种各样用户代理字段内容结构现状的分析,提炼出这些用户代理字段结构存在的共性和差异性。利用用户代理字段结构的共性,提炼出发送数据的设备所使用的浏览器版本、操作系统、设备类型和加密等级等信息。
本发明的上述技术目的是通过以下技术方案得以实现的:一种用户代理字段信息处理方法,其特征在于,包括以下步骤,
定义步骤,定义用户代理字段的标准格式;
录入步骤,基于用户代理字段的标准格式,建立用户代理字段库,对不同用户代理字段的格式进行统计和梳理,录入用户代理字段库;
精检步骤,获取用户代理字段中的属性信息,并通过用户代理字段库精确检测用户代理字段。
作为本发明的优选,在录入步骤和精检步骤之间还有信息拓展步骤,
遍历检测和获取不同结构规范下的用户代理字串,并对获取的字段信息进行扩展查询,完善用户代理字段信息库。
作为本发明的优选,所述精检步骤包括以下步骤,
步骤一,读取用户网络行为日志信息,提取出用户代理字串;
步骤二,根据用户代理字串基本结构的共性,确定属性信息在用户代理字串中的位置;
步骤三,从属性信息对应的位置提取字段信息;
步骤四,将字段信息作为关键字,并与用户代理字段库匹配;
步骤五,将与关键字匹配成功的对应信息完整提取并显示;
步骤六,读取下一条用户网络行为日志信息,重复步骤一至步骤六操作,直至结束;
作为本发明的优选,在步骤五中如果匹配不成功,还有补全步骤S5,补全步骤S5分为以下步骤,
S5.1,将用户代理字段中的信息填充到用户代理字段库的对应位置;
S5.2,将所填充信息中的硬件信息作为关键字,提取出该硬件信息中的专有信息;
S5.3,通过网络爬虫技术,按照网站的面包屑特性,精确定位到该设备类型所在的统一资源定位符信息;
S5.4,采用迭代的方法,对该统一资源定位符下的所有网站信息进行层层爬取,同专有信息进行匹配,如果匹配成功,则找到该硬件设备所在的网页信息,并对用户代理字段库中其他字段信息进行完善,爬虫结束;若匹配失败,则爬虫结束。
作为本发明的优选,在步骤四中还包括信息淘汰步骤,
将从未曾匹配过的或者已经长时间未匹配过的用户代理字段库中的数据删除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海斐讯数据通信技术有限公司,未经上海斐讯数据通信技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710447030.0/2.html,转载请声明来源钻瓜专利网。