[发明专利]一种用户代理字段信息处理方法和系统在审

申请号：	201710447030.0	申请日：	2017-06-14
公开（公告）号：	CN107368532A	公开（公告）日：	2017-11-21
发明（设计）人：	魏晓林	申请（专利权）人：	上海斐讯数据通信技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	杭州千克知识产权代理有限公司33246	代理人：	周希良,吴辉辉
地址：	201616 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用户代理字段信息处理方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及网络数据领域，具体涉及一种用户代理字段信息处理方法和系统。

背景技术

目前，智能设备的普及度和使用率都达到了很高的水准，对使用于智能设备上的各种应用软件的数据进行分析这一领域也逐渐成为各大数据处理厂家的战略重点，对这种大数据的处理分析可以得到不同使用者甚至全社会的操作习惯或者生活习性，从而对使用者进行全方位的分析，甚至做出准确的行为预判。其中，大数据的处理多数情况下会从用户代理字段作为切入点下手，即在对用户网络行为进行分析时，发现用户终端网络行为日志信息中的用户代理字段包含大量的用户信息，比如所使用的硬件机型、浏览器信息系和操作系统信息，通过对这些信息进行统计分析，能够得到一个家庭内部电子产品、应用软件和浏览器等使用情况，为各个软硬件厂家的研发和生产提供用户使用频度、喜好、偏好的评估数据依据。

但是由于用户代理字段结构的制定厂商比较多，并都想成为用户代理字段规则的唯一制定着，因此在这种激烈竞争下，造成用户代理字段呈现不规则现象，种类繁多，因此用户代理字段结构信息检测不精确。如申请号为CN200810094108.6的中国申请文件公布了一种网站页面信息统计方法及装置，该技术方案中包括“从超文本传输协议请求中提取用户代理字段；将所述用户代理字段中的操作系统相关信息，与检索树中的机器人禁止列表和浏览器允许列表分别进行匹配，生成匹配结果；所述匹配是将所述操作系统相关信息中的每个字母依次与所述检索树中的节点进行匹配”，在对用户代理字段中的信息进行匹配时，由于是“每个字母依次与所述检索树中的节点进行匹配”，这样会大大降低匹配效率，尤其是遇到不同的用户代理字段结构不同，还有可能会错失部分匹配。

针对这个问题，本专利通过对用户代理字段发展变迁过程和目前存在的用户代理字段中不同内容的进行分析，建立浏览器编码库、操作系统编码库、机型列表、厂商列表和浏览器类别库等用户代理字段信息库，并定期对该用户代理字段信息库中的信息进行维护和更新，来提高用户代理字串检测的准确度。

发明内容

本发明的目的是提供一种用户代理字段信息处理方法和系统，通过对用户代理字段结构的变迁过程，以及各种各样用户代理字段内容结构现状的分析，提炼出这些用户代理字段结构存在的共性和差异性。利用用户代理字段结构的共性，提炼出发送数据的设备所使用的浏览器版本、操作系统、设备类型和加密等级等信息。

本发明的上述技术目的是通过以下技术方案得以实现的：一种用户代理字段信息处理方法，其特征在于，包括以下步骤，

定义步骤，定义用户代理字段的标准格式；

录入步骤，基于用户代理字段的标准格式，建立用户代理字段库，对不同用户代理字段的格式进行统计和梳理，录入用户代理字段库；

精检步骤，获取用户代理字段中的属性信息，并通过用户代理字段库精确检测用户代理字段。

作为本发明的优选，在录入步骤和精检步骤之间还有信息拓展步骤，

遍历检测和获取不同结构规范下的用户代理字串，并对获取的字段信息进行扩展查询，完善用户代理字段信息库。

作为本发明的优选，所述精检步骤包括以下步骤，

步骤一，读取用户网络行为日志信息，提取出用户代理字串；

步骤二，根据用户代理字串基本结构的共性，确定属性信息在用户代理字串中的位置；