[发明专利]垂直搜索方法和系统有效
申请号: | 201710586225.3 | 申请日: | 2017-07-18 |
公开(公告)号: | CN110020063B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 罗超;薛韬 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/215;G06F16/2455 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垂直 搜索 方法 系统 | ||
本发明公开了一种垂直搜索方法和系统,涉及计算机领域。该方法的一具体实施方式包括:从至少一个源数据库中的任一源数据库中确定该源数据库的多个字段名、以及与所述多个字段名中的任一字段名对应的搜索引擎字段名;基于所述搜索引擎字段名构建该源数据库的搜索引擎映射结构;获取该源数据库的更新数据,根据所述更新数据生成与所述搜索引擎字段名对应的数据,将与所述搜索引擎字段名对应的数据输入所述搜索引擎映射结构以提供搜索。该实施方式能够基于通用的搜索模型解决不同业务的垂直搜索需求,从而减少系统重复建设,快速响应业务需求。
技术领域
本发明涉及计算机领域,尤其涉及一种垂直搜索方法和系统。
背景技术
随着互联网技术的快速发展,如百度、谷歌等通用搜索系统已难以针对特定领域、特定人群或特定需求提供价值较大的信息与服务。行业中一般采用垂直搜索系统来解决上述问题,垂直搜索系统是针对某一个领域的专业搜索系统,是通用搜索系统的细分和延伸,其采用专业搜索引擎对网页库中的某类专门信息进行整合,定向、分字段抽取出用户所需数据进行处理后返回给用户。例如:可以针对酒店预定、演出门票预定、体育场馆订购建立垂直搜索系统。
在现有技术中,由于不同行业、不同领域的业务特点不同,搜索条件与搜索规则差异较大,因此难以采用通用的搜索模型解决不同业务的搜索需求,一般是为不同业务搭建独立的搜索系统。同时,现有技术的搜索引擎数据更新过程一般为:通过同步程序定时从源数据库拉取数据,按照业务需求将数据硬编码到搜索字段,之后写入搜索引擎;用户通过查询程序调用搜索引擎进行搜索。
在实现本发明的过程中,发明人发现现有的垂直搜索系统至少存在以下问题:
1.在现有技术中,由于必须为不同业务搭建独立的搜索系统,因此造成大量的重复建设,同时难以快速响应业务需求;
2.现有的搜索系统由于采用硬编码的方式进行数据更新,因此其业务效率较低,同时其无法实现搜索数据的实时更新;
3.现有技术无法对不同业务的搜索服务进行统一管理:如备份、限流、降级、恶意流量拦截以及反爬虫。
发明内容
有鉴于此,本发明实施例提供一种垂直搜索方法和系统,能够基于通用的搜索模型解决不同业务的垂直搜索需求,从而减少系统重复建设,快速响应业务需求。
为实现上述目的,根据本发明的一个方面,提供了一种垂直搜索方法。
本发明实施例的垂直搜索方法包括:从至少一个源数据库中的任一源数据库中确定该源数据库的多个字段名、以及与所述多个字段名中的任一字段名对应的搜索引擎字段名;基于所述搜索引擎字段名构建该源数据库的搜索引擎映射结构;获取该源数据库的更新数据,根据所述更新数据生成与所述搜索引擎字段名对应的数据,将与所述搜索引擎字段名对应的数据输入所述搜索引擎映射结构以提供搜索。
可选地,所述方法进一步包括:为所述搜索引擎字段名配置至少一个属性参数,以构建该源数据库的搜索引擎映射结构;以及所述基于所述搜索引擎字段名构建该源数据库的搜索引擎映射结构包括:基于所述搜索引擎字段名以及为所述搜索引擎字段名配置的属性参数构建该源数据库的搜索引擎映射结构。
可选地,所述属性参数包括以下一种或多种:字段类型参数、索引参数、存储参数、分词器参数、格式参数及加权参数。
可选地,所述根据所述更新数据生成与所述搜索引擎字段名对应的数据包括:将所述更新数据转换为键值对数据,从所述键值对数据中选取键名与所述多个字段名中任一字段名相同的数据作为清洗数据;将任一清洗数据中的键名更改为与该键名对应的搜索引擎字段名,得到与所述搜索引擎字段名对应的数据。
可选地,所述方法进一步包括:根据预设的转换脚本对该清洗数据中的值进行转换,以得到与所述搜索引擎字段名对应的数据。
可选地,所述方法进一步包括:根据预设的校验规则对所述清洗数据进行校验。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710586225.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可定制的网络爬虫方法及系统
- 下一篇:网页的爬取方法和装置