[发明专利]使用字符跳过的表达式识别在审
申请号: | 201880095480.0 | 申请日: | 2018-12-28 |
公开(公告)号: | CN112567377A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 任力伟 | 申请(专利权)人: | 北京嘀嘀无限科技发展有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/166;G06K9/00 |
代理公司: | 北京睿派知识产权代理事务所(普通合伙) 11597 | 代理人: | 刘锋 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 字符 跳过 表达式 识别 | ||
可以获得多个搜索模式。多个搜索模式内的字符可以被包含在多个字母表内。可以限定包括多个搜索模式内的字符的池。可以设置针对要搜索的文本的指针。可以确定与指针相对应的文本的字符是否与池内的一个字符相匹配。基于与指针相对应的文本的字符与池内的一个字符相匹配,可以选择文本的第一部分以搜索多个搜索模式。基于与指针相对应的文本的字符与池内的任何字符都不匹配,可以在对多个搜索模式的搜索中跳过文本的第二部分。
本申请要求2018年7月10日提交的名称为“Expression Recognition UsingCharacter Skipping(使用字符跳过的表达式识别)”的第16/031,437号美国非临时申请的优先权权益,所述美国非临时申请的内容通过引用以其全文并入本文。
技术领域
本公开总体上涉及在文本内查找搜索模式。
背景技术
样式搜索可以用在诸如数据安全系统等计算系统中。例如,文件可以包括诸如信用卡号或社会保险号等敏感数据,并且可能需要检测文件中敏感数据的存在,以便根据安全类别来对文件进行分类或者防止对文件进行未授权分发。敏感数据可以表现为文件内的多个样式,并且搜索所述文件内的多个样式可能需要重复搜索所述文件。例如,在文档中搜索多个表达式(例如,正则表达式)可能需要将文档的内容(例如,文本)分割成重叠的片段并且将每个表达式逐个地应用于每个片段。在文档中搜索N个不同的表达式可能需要对所述文档进行N次单独扫描。这种文件搜索可能占用大量处理资源(诸如处理时间和功率)。如果文档不包含所搜索表达式或仅包含所搜索表达式的几个实例,则可能在徒劳的搜索上花费大量处理资源。
发明内容
本公开的一个方面涉及一种用于查找搜索模式的方法。所述方法可以包括:获得多个搜索模式,其中,所述多个搜索模式内的字符被包含在多个字母表内;限定包括所述多个搜索模式内的所述字符的池;设置针对要搜索的文本的指针;确定与所述指针相对应的文本的字符是否与所述池内的一个字符相匹配;基于与所述指针相对应的文本的字符与所述池内的一个字符相匹配来选择所述文本的第一部分以搜索所述多个搜索模式;以及基于与所述指针相对应的文本的字符同池内的任何字符都不匹配而在对所述多个搜索模式的搜索中跳过所述文本的第二部分。
本公开的另一个方面涉及一种用于查找搜索模式的系统。所述系统可以包括一个或多个处理器以及存储有指令的存储器。所述指令在由所述一个或多个处理器执行时,可以使所述系统执行以下操作:获得多个搜索模式,其中,所述多个搜索模式内的字符被包含在多个字母表内;限定包括所述多个搜索模式内的所述字符的池;设置针对要搜索的文本的指针;确定与所述指针相对应的文本的字符是否与所述池内的一个字符相匹配;基于与所述指针相对应的文本的字符与所述池内的一个字符相匹配来选择所述文本的第一部分以搜索所述多个搜索模式;以及基于与所述指针相对应的文本的字符同池内的任何字符都不匹配而在对所述多个搜索模式的搜索中跳过所述文本的第二部分。
在一些实施例中,可以基于所述多个搜索模式的长度来确定最小长度参数和最大长度参数,并且可以基于所述最小长度参数来设置指针。
在一些实施例中,在对所述多个搜索模式的搜索中跳过所述文本的第二部分可以包括基于所述最小长度参数来使所述指针移位。
在一些实施例中,在所述文本的第一部分中搜索所述多个搜索模式可以包括在所述文本位于搜索窗口内的序列中搜索所述多个搜索模式,所述搜索窗口由起始位置和结束位置限定,其中,所述起始位置是基于所述指针和所述最小长度参数来确定的,并且所述结束位置是基于所述起始位置和所述最大长度参数来确定的。
在一些实施例中,所述搜索窗口的大小可以小于所述最大长度参数的两倍。
在一些实施例中,所述起始位置可以基于从所述指针移位小于所述最小长度参数来确定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京嘀嘀无限科技发展有限公司,未经北京嘀嘀无限科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880095480.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:具有扩展的测量范围的偏转型折射仪
- 下一篇:通信装置、接收装置以及监视系统