[发明专利]关键字的还原方法及装置在审
申请号: | 201310733537.4 | 申请日: | 2013-12-26 |
公开(公告)号: | CN103646113A | 公开(公告)日: | 2014-03-19 |
发明(设计)人: | 祝守宇;赵林;黄长波 | 申请(专利权)人: | 北京西塔网络科技股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 吴开磊 |
地址: | 100080 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 关键字 还原 方法 装置 | ||
技术领域
本发明涉及计算机技术领域,具体而言,涉及关键字的还原方法及装置。
背景技术
目前,对于用户的网络访问行为的获取和还原多采用DPI服务和ETL服务器实现,即采用DPI服务器获取用户的网络访问数据,然后通过ETL服务器对用户的网络访问数据进行还原,从而可以获知用户的行为。
用户的网络访问行为包括在搜索网站中搜索的关键字,对于还原用户在搜索网站中搜索了什么关键字,现有的方法是通过查找用户的网络访问数据中的关键字特征标识,来确定哪些字段是用户检索的关键字,然后将相应的字段还原为具体的关键字。
但是,由于不同的搜索网站,其产生的关键字特征标识是不同的,现有的关键字还原方法只能按照预先设置好的规则还原某一个特定的搜索网站的关键字,普适性低。
发明内容
本发明的目的在于提供一种关键字的还原方法和装置,以解决上述的问题。
在本发明的实施例中提供了一种关键字的还原方法,该方法包括:
预先建立关键字特征标识库;关键字特征标识库中包含与多个预设的搜索网站一一对应的参考关键字特征标识,以及与参考关键字特征标识一一对应的字段提取规则;若用户的网络访问数据中包含与关键字特征标识库中的参考关键字特征标识相同的标识字符串,则按照与标识字符串相同的参考关键字特征标识对应的字段提取规则提取出待转换的字符串;将待转换的字符串还原为关键字。
优选地,关键字特征标识库包括:参考关键字特征标识bs。
优选地,关键字特征标识库包括:参考关键字特征标识&q。
优选地,关键字特征标识库包括:参考关键字特征标识search?keyword。
优选地,字段提取规则包括提取参考关键字特征标识后的第一个=和第一个&之间的字符串。
在本发明的另一实施例中提供了一种关键字的还原装置,该装置包括:关键字特征标识库、提取模块和还原模块;
关键字特征标识库是预先建立的,关键字特征标识库中包含与多个预设的搜索网站一一对应对应的参考关键字特征标识,以及与参考关键字特征标识一一对应的字段提取规则;提取模块用于若用户的网络访问数据中包含与关键字特征标识库中的参考关键字特征标识相同的标识字符串,则按照与标识字符串相同的参考关键字特征标识对应的字段提取规则提取出待转换的字符串;还原模块用于将待转换的字符串还原为关键字。
优选地,关键字特征标识库包括:参考关键字特征标识bs。
优选地,关键字特征标识库还包括:参考关键字特征标识&q。
优选地,关键字特征标识库还包括:参考关键字特征标识search?keyword。
优选地,提取模块具体用于按照提取参考关键字特征标识后的第一个=和第一个&之间的字符串的规则提取出待转换的字符串。
本发明上述实施例的关键字的还原方法和装置,通过建立包含与多个预设的搜索网站一一对应的参考关键字特征标识的关键字特征标识库,由于本发明中的关键字特征标识库中包括多个预设搜索网址的参考关键字特征标识,因此无论用户的网络访问数据是哪个搜索网站的,只要该搜索网站的参考关键字特征标识在关键字特征标识库中,即可进行还原关键字。若用户的网络访问数据中包含有参考关键字特征标识,则按照与参考关键字特征标识对应的字段提取规则提取待转换的字符串,并将该字符串还原为关键字,解决了现有技术中仅可以还原某一特定的搜索网站的关键字,大大提高了关键字还原的普适性。
附图说明
图1示出了本发明实施例提供的关键字的还原方法的流程示意图;
图2示出了本发明另一实施例提供的关键字的还原方法的流程示意图;
图3示出了本发明实施例提供的关键字的还原装置的结构示意图。
具体实施方式
下面通过具体的实施例并结合附图对本发明做进一步的详细描述。
如图1所示,本发明实施例提供的关键字的还原方法包括:
步骤S110:预先建立关键字特征标识库;关键字特征标识库中包含与多个预设的搜索网站一一对应的参考关键字特征标识,以及与参考关键字特征标识一一对应的字段提取规则。
在步骤S110中,预设的搜索网站可以是百度、谷歌、京东、雅虎、新浪等,在此不一一穷举,现有的网站大多具有搜索功能,凡具有搜索功能的网站均可以作为本实施例中的预设的搜索网站。不同的搜索网站具有不同的参考关键字特征标识。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京西塔网络科技股份有限公司,未经北京西塔网络科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310733537.4/2.html,转载请声明来源钻瓜专利网。