[发明专利]相似字符序列查询及向量生成方法、电子设备和存储介质在审
| 申请号: | 202211648666.9 | 申请日: | 2022-12-21 |
| 公开(公告)号: | CN115840839A | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 束博;王占一;李宁 | 申请(专利权)人: | 奇安信网神信息技术(北京)股份有限公司;奇安信科技集团股份有限公司 |
| 主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/901 |
| 代理公司: | 北京维飞联创知识产权代理有限公司 11857 | 代理人: | 李飞 |
| 地址: | 100044 北京市西*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 相似 字符 序列 查询 向量 生成 方法 电子设备 存储 介质 | ||
1.一种相似字符序列的查询方法,其特征在于,所述方法包括:
确定待查询字符序列的特征字符片段;
利用所述特征字符片段,生成所述待查询字符序列的特征向量;
根据所述待查询字符序列的特征向量,与各个样本字符序列所对应特征向量之间的向量距离,从所述的各个样本字符序列中确定出所述待查询字符序列的相似字符序列。
2.根据权利要求1所述的方法,其特征在于,在确定待查询字符序列的特征字符片段之前,所述方法还包括:
获取相似字符序列的查询请求,所述查询请求包括所述待查询字符序列。
3.根据权利要求1所述的方法,其特征在于,确定待查询字符序列的特征字符片段,具体包括:
从所述待查询字符序列中提取出多个连续字符串,其中,各个连续字符串的字符长度均属于预设字符长度范围;
确定各个连续字符串的哈希值;
根据各个连续字符串的哈希值分别是否被预设过滤比整除,从所述的各个连续字符串中确定出,所述待查询字符序列的至少一个特征字符片段。
4.根据权利要求3所述的方法,其特征在于,利用所述特征字符片段,生成所述待查询字符序列的特征向量,具体包括:
将各个特征字符片段分别转化为多维向量;
将各个多维向量进行加权求和,其中,每个多维向量的权重与对应特征字符片段的字符长度正相关;
将加权求和所得到的加权向量进行归一化处理,生成所述待查询字符序列的特征向量。
5.根据权利要求4所述的方法,其特征在于,将各个特征字符片段分别转化为多维向量,具体包括:
针对各个特征字符片段,在所述特征字符片段中分别添加多个不同的维度序号,以得到所述特征字符片段对应的多个拼接字符串;
确定所述特征字符片段所对应的各个拼接字符串的哈希值;
利用所述的各个拼接字符串的哈希值,生成所述特征字符片段的多维向量。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定各个样本字符序列分别所对应的特征向量。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述待查询字符序列的特征向量,分别与各个样本字符序列所对应特征向量之间的欧氏距离或余弦距离,作为所述的向量距离。
8.一种特征向量的生成方法,其特征在于,包括:
确定待生成特征向量的字符序列的特征字符片段;
利用所述特征字符片段,生成所述字符序列的特征向量。
9.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行如权利要求1-8任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-8任意一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇安信网神信息技术(北京)股份有限公司;奇安信科技集团股份有限公司,未经奇安信网神信息技术(北京)股份有限公司;奇安信科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211648666.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:汽车支架连续模模内压毛边工艺
- 下一篇:洗涤设备及其控制方法与装置





