[发明专利]一种基于低频索引的文本逻辑表达式快速计算方法在审
申请号: | 202211211979.8 | 申请日: | 2022-09-30 |
公开(公告)号: | CN115577071A | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 曹俊亮;周帅锋;杨小腾;艾迪;陈杰 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/31 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 韩天宇 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 低频 索引 文本 逻辑 表达式 快速 计算方法 | ||
本发明公开了一种基于低频索引的文本逻辑表达式快速计算方法,首先,遍历表达式,根据运算条件进行分组;然后,通过动态加权计算各个或运算分组的得分,将关键词出现频率得分最高的或运算分组作为索引组;接着对所有分组的关键词进行全局去重后,生成匹配机,作为多模关键词匹配使用;最后基于原二叉树规则合并或节点为位图节点,将目标文本与匹配机进行匹配,将命中的关键词形成集合,将该集合与索引进行交集计算,当交集是否大于0判断节点是否命中。本发明在关键词个数和表达式数量增加的情况下,通过低频索引的方式降低计算量,通过位运算提高计算性能,保证在这种情况下仍能保持高效的计算性能,满足业务数据时效性的要求。
技术领域
本发明属于信号处理技术领域,尤其涉及分布式光纤振动信号的处理方法。
背景技术
业界很多企业机构存在通过关键词组合的逻辑表达式作为规则提取目标文本的需求,这种业务场景下,随着关键词的增多和逻辑表达式的扩散,计算量会呈指数上涨趋势,表达式数量到达一定量级后甚至无法满足业务系统的性能以及数据时效性要求。目前业界广泛使用过的表达式计算解决方案有以下方案:
(1)零索引计算:零索引表达式计算步骤包括:取一条表达式规则,将表达式拆分为多个计算逻辑单元,然后遍历一个表达式的所有逻辑单元(关键词),逐一和目标文本进行匹配计算,得出每个逻辑单元的计算结果,然后根据各个逻辑单元的结果进行表达式计算,最终得到该表达式的计算结果,遍历所有表达式规则按照上述步骤逐一计算完成。该方案需要经过两层循环遍历进行表达式计算,所有表达式和关键词都要经过计算,时间复杂度太高,在在关键词个数和表达式条数增长的时候性能会呈指数下降,无法满足业务需求;
(2)全量索引计算:全索引表达式计算步骤包括:首先遍历所有的表达式规则,将每条表达式拆分为多个计算逻辑单元,将拆份开的所有关键词去重存储并逐一和表达式建立索引;
遍历关键词,逐一和目标文本进行模糊匹配计算,通过索引筛选出命中的关键词对应的表达式,根据各个逻辑单元关键词的结果进行表达式计算,最终得到该表达式的计算结果,遍历所有索引到的表达式规则,完成逻辑运算。
该方案会对关键词和表达式建立索引,虽然可以降低表达式计算耗时,但每个关键词都会和对应表达式建立索引,导致对最终未能命中的表达式会进行冗余计算,在关键词和表达式增多的情况下性能仍然无法满足业务需求。
发明内容
针对现有技术存在的问题,本发明提供了一种基于低频索引的文本逻辑表达式快速计算方法,在关键词个数和表达式数量增加的情况下,通过低频索引的方式降低计算量,通过位运算提高计算性能,保证在这种情况下仍能保持高效的计算性能,满足业务数据时效性的要求。
为解决上述技术问题,本发明采用了以下技术方案:一种基于低频索引的文本逻辑表达式快速计算方法,其特征在于包括以下步骤:
步骤S1,表达式分组和低频索引构建:遍历所有表达式,根据运算条件将或与混合运算的表达式转换成多个或运算分组的与运算表达式;
步骤S2,低频索引构建:通过动态加权计算各个或运算分组的得分,按照表达式中关键词出现频率得分排序,将得分最高的或运算分组作为索引组并与该表达式建立索引,以确保一个表达式只和其中一组建立索引;
步骤S3,对所有分组的关键词进行全局去重后,生成匹配机,作为多模关键词匹配使用;
步骤S4,或运算位图计算:基于原二叉树规则,合并或节点为位图节点,将目标文本与步骤S3得到匹配机进行匹配,将命中的关键词集合生成一个位图,将该位图与步骤S2得到索引进行交集计算得到交集位图,以交集位图的容量是否大于0判断节点是否命中。在合并或节点为位图节点过程中,二叉树的叶子节点为关键词,根节点和分支节点为运算符,将相邻连续的或(OR)运算合并为一个位图节点,然后整个二叉树就变成由位图节点和与(AND)运算组成。多个或节点合并为一个位图节点,一个位图节点对应一个或运算分组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211211979.8/2.html,转载请声明来源钻瓜专利网。