[发明专利]语义指纹查询方法、装置、设备和存储介质在审
申请号: | 202111078932.4 | 申请日: | 2021-09-15 |
公开(公告)号: | CN113821599A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 曲子乐 | 申请(专利权)人: | 北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/953 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨泽;黄健 |
地址: | 100176 北京市经济技术开*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语义 指纹 查询 方法 装置 设备 存储 介质 | ||
本发明实施例提供一种语义指纹查询方法、装置、设备及存储介质。通过获取目标语义指纹后,根据海明距离的预设数值、分块数量和获取到的目标语义指纹共同确定目标语义指纹的查询条件。根据查询条件,在语义指纹库中确定最终的查询结果,由于海明距离的预设数值和分块数量的改变并不会改变目标语义指纹查询条件的确定方式,则能够满足不同策略的查询方式而无需对语义指纹库进行反复存储,因此,又能够进一步地避免存储空间浪费的问题。
技术领域
本发明实施例涉及电子技术领域,尤其涉及一种语义指纹查询方法、装置、设备及存储介质。
背景技术
随着计算机的普及应用,各种各样的数据均能够在互联网上进行查找,但是互联网上存在很多相似的文档和资料。
在实现查询的过程中,发明人发现现有技术中至少存在如下问题:为了能够查询出相似的文档,目前采用的查询方式在每次查询时需要重新采集一次语音指纹集合,这样会造成存储空间的浪费,并且无法满足不同策略的查询。
因此,亟需一种语义指纹查询方法,能够节省存储空间,并提高查询的灵活性。
发明内容
本发明实施例提供一种语义指纹查询方法、装置、设备及存储介质,用以解决存储空间浪费,并且无法满足不同策略的查询的问题。
一方面,本发明实施例提供一种语义指纹查询方法,包括:
获取目标语义指纹;
根据海明距离的预设数值、分块数量和所述目标语义指纹,确定所述目标语义指纹的查询条件;
根据所述查询条件,在语义指纹库中确定查询结果;其中,所述语义指纹库中的语义指纹的位数与所述目标语义指纹的位数相同。
可选的,根据海明距离的预设数值、分块数量和所述目标语义指纹,确定所述目标语义指纹的查询条件,包括:
将所述目标语义指纹的位数按照所述分块数量进行划分,得到所述目标语义指纹位数的初次分段结果;
根据所述初次分段结果、所述海明距离的预设数值和所述分块数量,确定二次分段结果;
根据所述初次分段结果和所述二次分段结果,确定所述目标语义指纹的查询条件。
可选的,将所述目标语义指纹的位数按照所述分块数量进行划分,得到所述目标语义指纹位数的初次分段结果,包括:
将所述目标语义指纹的位数按照所述分块数量划分至第一分段中;其中,所述第一分段的子段数量与所述分块数量相同;
根据所述海明距离的预设数值,在所述第一分段中确定与所述海明距离不同的第一子段;
根据所述第一分段和所述第一子段,计算第二子段;
将所述第二子段作为所述初次分段结果。
可选的,根据所述初次分段结果、所述海明距离的预设数值和所述分块数量,确定二次分段结果,包括:
将所述第一子段按照所述分块数量划分至第二分段中;其中,所述第二分段的子段数量与所述分块数量相同;其中,所述第二分段的字段区间在所述第一子段的字段区间内;
根据所述海明距离的预设数值,在所述第二分段中确定与所述海明距离不同的第三子段;
根据所述第二分段和所述第三子段,计算所述第四子段;
将所述第四子段作为所述二次分段结果。
可选的,根据所述初次分段结果和所述二次分段结果,确定所述目标语义指纹的查询条件,包括:
将所述初次分段结果与所述二次分段结果进行加和,得到所述查询条件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司,未经北京沃东天骏信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111078932.4/2.html,转载请声明来源钻瓜专利网。