[发明专利]索引库构建方法、搜索方法及装置有效
申请号: | 201710901601.3 | 申请日: | 2017-09-28 |
公开(公告)号: | CN110019645B | 公开(公告)日: | 2022-04-19 |
发明(设计)人: | 谭鑫 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/29;G06F16/9535;G06F16/9537 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 索引 构建 方法 搜索 装置 | ||
1.一种索引库构建方法,其特征在于,包括:
对兴趣点Poi的数据源进行扫描,确定各Poi的属性信息和城市信息;
依据各Poi的属性信息创建Poi的倒排索引;
依据所述城市信息对Poi的倒排索引进行切分,得到基于城市信息的索引分块;
按照不同城市信息对应的索引分块,对Poi的倒排索引进行存储构建Poi索引库;
所述方法还包括:
记录每一个Poi所对应的Poi热度和用户点击历史数据,并将所述Poi热度和所述用户点击历史数据融入到Poi的倒排索引中,以便基于所述Poi热度和所述用户点击历史数对Poi进行排序。
2.根据权利要求1所述的方法,其特征在于,所述属性信息为基于Poi的查询域确定的,所述Poi的倒排索引包括:基于单个字符的倒排索引,所述依据各Poi的属性信息创建Poi的倒排索引,包括:
分别从各Poi的属性信息中,提取各Poi地址域信息和/或名称域信息;
对各Poi名称域信息包含的名称字符以及地址域信息包含的地址字符进行统计,确定基于单个字符的倒排索引。
3.根据权利要求2所述的方法,其特征在于,所述依据所述索引分块构建Poi索引库,包括:
构建Poi的倒排索引与索引分块的对应关系,所述倒排索引包括以下至少一项: Poi名称索引和Poi地址索引;
基于所述Poi的倒排索引与索引分块的对应关系,构建Poi索引库。
4.根据权利要求3所述的方法,其特征在于,所述对各Poi名称域信息包含的名称字符进行统计,确定基于单个字符的倒排索引,包括:
对所述名称域信息中所包含的名称字符进行统计,确定各名称字符对应的频率;
依据各名称字符对应的频率,确定各名称字符的倒排链表,所述倒排链表包括:名称字符编号、字符位置以及Poi热度;
针对每一个Poi的名称域信息,基于所述名称字符的倒排链表构建Poi名称索引。
5.根据权利要求3所述的方法,其特征在于,所述对各Poi地址域信息包含的地址字符进行统计,确定基于单个字符的倒排索引,包括:
对所述地址域信息中所包含的地址字符进行统计,确定各地址字符对应的频率;
依据各地址字符对应的频率,确定各地址字符的倒排链表,所述倒排链表包括:地址字符编号、字符位置以及Poi热度;
针对每一个Poi的地址域信息,基于所述地址字符的倒排链表构建Poi地址索引。
6.根据权利要求1所述的方法,其特征在于,所述依据所述城市信息对Poi的倒排索引进行切分,得到基于城市信息的索引分块,包括:
按照所述城市信息对各Poi的倒排索引进行切分,得到各城市信息对应的Poi的倒排索引;
基于同一城市信息对应的Poi的倒排索引,生成对应的索引分块。
7.根据权利要求2所述的方法,其特征在于,所述确定基于单个字符的倒排索引之前,所述方法还包括:
获取历史搜索数据,所述历史搜索数据包括用户的输入法记录数据、网页点击历史数据和地图点击历史数据;
对所述历史搜索数据中的输入法记录数据、网页点击历史数据和地图点击历史数据进行综合分析,得到各字符对应的Poi热度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710901601.3/1.html,转载请声明来源钻瓜专利网。