[发明专利]垂直搜索方法和系统有效
申请号: | 201710586225.3 | 申请日: | 2017-07-18 |
公开(公告)号: | CN110020063B | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 罗超;薛韬 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/215;G06F16/2455 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 张一军;姜劲 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 垂直 搜索 方法 系统 | ||
1.一种垂直搜索方法,其特征在于,包括:
从至少一个源数据库中的任一源数据库中确定该源数据库的多个字段名、以及与所述多个字段名中的任一字段名对应的搜索引擎字段名;
基于所述搜索引擎字段名构建该源数据库的搜索引擎映射结构;其中,所述搜索引擎字段名为搜索引擎单元中存储的字段名,所述搜索引擎单元包括弹性搜索引擎ES或基于Lucene复制的搜索Solr;在所述搜索引擎单元为ES时,所述搜索引擎映射结构为弹性搜索引擎映射结构ES Mapping;
获取该源数据库的更新数据,根据所述更新数据生成与所述搜索引擎字段名对应的数据,将与所述搜索引擎字段名对应的数据输入所述搜索引擎映射结构以提供搜索。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:为所述搜索引擎字段名配置至少一个属性参数,以构建该源数据库的搜索引擎映射结构;以及
所述基于所述搜索引擎字段名构建该源数据库的搜索引擎映射结构包括:基于所述搜索引擎字段名以及为所述搜索引擎字段名配置的属性参数构建该源数据库的搜索引擎映射结构。
3.根据权利要求2所述的方法,其特征在于,所述属性参数包括以下一种或多种:字段类型参数、索引参数、存储参数、分词器参数、格式参数及加权参数。
4.根据权利要求1所述的方法,其特征在于,所述根据所述更新数据生成与所述搜索引擎字段名对应的数据包括:
将所述更新数据转换为键值对数据,从所述键值对数据中选取键名与所述多个字段名中任一字段名相同的数据作为清洗数据;
将任一清洗数据中的键名更改为与该键名对应的搜索引擎字段名,得到与所述搜索引擎字段名对应的数据。
5.根据权利要求4所述的方法,其特征在于,所述方法进一步包括:
根据预设的转换脚本对该清洗数据中的值进行转换,以得到与所述搜索引擎字段名对应的数据。
6.根据权利要求4所述的方法,其特征在于,所述方法进一步包括:
根据预设的校验规则对所述清洗数据进行校验。
7.根据权利要求1-6任一所述的方法,其特征在于,所述源数据库为MySQL,所述更新数据为二进制日志binlog数据。
8.一种垂直搜索系统,其特征在于,包括:
搜索模型单元,用于从至少一个源数据库中的任一源数据库中确定该源数据库的多个字段名、以及与所述多个字段名中的任一字段名对应的搜索引擎字段名;
搜索引擎单元,用于基于所述搜索引擎字段名构建该源数据库的搜索引擎映射结构;其中,所述搜索引擎字段名为搜索引擎单元中存储的字段名,所述搜索引擎单元包括弹性搜索引擎ES或基于Lucene复制的搜索Solr;在所述搜索引擎单元为ES时,所述搜索引擎映射结构为弹性搜索引擎映射结构ES Mapping;
索引单元,用于获取该源数据库的更新数据,根据所述更新数据生成与所述搜索引擎字段名对应的数据,将与所述搜索引擎字段名对应的数据输入所述搜索引擎映射结构以提供搜索。
9.根据权利要求8所述的系统,其特征在于,所述搜索模型单元进一步用于:为所述搜索引擎字段名配置至少一个属性参数,以构建该源数据库的搜索引擎映射结构;以及
所述搜索引擎单元用于:基于所述搜索引擎字段名以及为所述搜索引擎字段名配置的属性参数构建该源数据库的搜索引擎映射结构。
10.根据权利要求9所述的系统,其特征在于,所述属性参数包括以下一种或多种:字段类型参数、索引参数、存储参数、分词器参数、格式参数及加权参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710586225.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可定制的网络爬虫方法及系统
- 下一篇:网页的爬取方法和装置