[发明专利]相似字符序列查询及向量生成方法、电子设备和存储介质在审
| 申请号: | 202211648666.9 | 申请日: | 2022-12-21 |
| 公开(公告)号: | CN115840839A | 公开(公告)日: | 2023-03-24 |
| 发明(设计)人: | 束博;王占一;李宁 | 申请(专利权)人: | 奇安信网神信息技术(北京)股份有限公司;奇安信科技集团股份有限公司 |
| 主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/901 |
| 代理公司: | 北京维飞联创知识产权代理有限公司 11857 | 代理人: | 李飞 |
| 地址: | 100044 北京市西*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 相似 字符 序列 查询 向量 生成 方法 电子设备 存储 介质 | ||
本申请提供相似字符序列查询及向量生成方法、电子设备和存储介质。该相似字符序列的查询方法包括:确定待查询字符序列的特征字符片段;利用所述特征字符片段,生成所述待查询字符序列的特征向量;根据所述待查询字符序列的特征向量,与各个样本字符序列所对应特征向量之间的向量距离,因此能够从各个样本字符序列中确定出所述待查询字符序列的相似字符序列。
技术领域
本申请涉及计算机技术领域,具体涉及相似字符序列查询及向量生成方法、电子设备和存储介质。
背景技术
在恶意代码检测、相似文本检索、电子数据取证等领域,通常需要查询某个字符序列是否存在相似字符。因此,如何查询字符序列的相似字符至关重要。
发明内容
本申请实施例的目的在于提供相似字符序列查询及向量生成方法、电子设备和存储介质,用于解决现有技术中的技术问题。
本申请实施例第一方面提供了一种相似字符序列的查询方法,包括:
确定待查询字符序列的特征字符片段;
利用所述特征字符片段,生成所述待查询字符序列的特征向量;
根据所述待查询字符序列的特征向量,与各个样本字符序列所对应特征向量之间的向量距离,从所述的各个样本字符序列中确定出所述待查询字符序列的相似字符序列。
于一实施例中,在确定待查询字符序列的特征字符片段之前,所述方法还包括:
获取相似字符序列的查询请求,所述查询请求包括所述待查询字符序列。
于一实施例中,确定待查询字符序列的特征字符片段,具体包括:
从所述待查询字符序列中提取出多个连续字符串,其中,各个连续字符串的字符长度均属于预设字符长度范围;
确定各个连续字符串的哈希值;
根据各个连续字符串的哈希值分别是否被预设过滤比整除,从所述的各个连续字符串中确定出,所述待查询字符序列的至少一个特征字符片段。
于一实施例中,利用所述特征字符片段,生成所述待查询字符序列的特征向量,具体包括:
将各个特征字符片段分别转化为多维向量;
将各个多维向量进行加权求和,其中,每个多维向量的权重与对应特征字符片段的字符长度正相关;
将加权求和所得到的加权向量进行归一化处理,生成所述待查询字符序列的特征向量。
于一实施例中,将各个特征字符片段分别转化为多维向量,具体包括:
针对各个特征字符片段,在所述特征字符片段中分别添加多个不同的维度序号,以得到所述特征字符片段对应的多个拼接字符串;
确定所述特征字符片段所对应的各个拼接字符串的哈希值;
利用所述的各个拼接字符串的哈希值,生成所述特征字符片段的多维向量。
于一实施例中,所述方法还包括:确定各个样本字符序列分别所对应的特征向量。
于一实施例中,所述方法还包括:确定所述待查询字符序列的特征向量,分别与各个样本字符序列所对应特征向量之间的欧氏距离或余弦距离,作为所述的向量距离。
本申请实施例第二方面提供了一种特征向量的生成方法,包括:
确定待生成特征向量的字符序列的特征字符片段;
利用所述特征字符片段,生成所述字符序列的特征向量:
本申请实施例第三方面提供了一种电子设备,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于奇安信网神信息技术(北京)股份有限公司;奇安信科技集团股份有限公司,未经奇安信网神信息技术(北京)股份有限公司;奇安信科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211648666.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:汽车支架连续模模内压毛边工艺
- 下一篇:洗涤设备及其控制方法与装置





