[发明专利]关键词匹配方法及装置、电子设备和可读存储介质在审
申请号: | 201711482337.0 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108304484A | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 张忠飞 | 申请(专利权)人: | 北京城市网邻信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨泽;刘芳 |
地址: | 100015 北京市朝阳区酒仙桥*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词库 关键词匹配 目标服务器 维度 可读存储介质 匹配关键词 电子设备 缓存 获取目标 匹配结果 匹配效率 服务器 集合 查找 场景 | ||
本发明实施例提供一种关键词匹配方法及装置、电子设备和可读存储介质。该方法包括:从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。从而可以提高关键词匹配的准确性和匹配效率。
技术领域
本发明实施例涉及计算机领域,尤其涉及一种关键词匹配方法及装置、电子设备和可读存储介质。
背景技术
现如今,各大网站或应用程序(APP)的相应页面每天都会有大量的帖子发布,有的帖子内容是符合规定的,有的帖子是违规的(如涉黄、涉暴),因此需要一种能对文本特定关键词进行匹配、检测的系统,能在用户发帖的第一时间判断该用户所发帖子是否符合规定,从而对违规的帖子及时拦截处理。
现有技术中的关键词匹配系统,采用的是定制化的开发模式,定制化的开发模式具体含义是:所有关键词存储在一个关键词词库中,关键词词库中按照关键词所包含的总的字符个数存储关键词,如“开发成本”对应存储的就是4个字符“开发成本”,在关键词匹配时采用一对一的方式进行匹配。
上述方式中,由于对关键词的命中有一定的局限性,因此准确性不高,且匹配效率较低。
发明内容
本发明实施例提供一种关键词匹配方法及装置、电子设备和可读存储介质,以提高关键词匹配的准确性和匹配效率。
第一方面,本发明实施例提供一种关键词匹配方法,包括:
从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;
根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;
根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。
可选的,所述本地缓存中以字典树的数据结构存储关键词,关键词所属的词库的标识和关键词所属的词库所在的服务器的标识存储在关键词的最后一个字符对应的节点中。
可选的,所述从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,包括:
从字典树的数据结构查找出待匹配关键词,从待匹配关键词的最后一个字符对应的节点中获取待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识。
可选的,所述本地缓存中以哈希表的形式存储关键词、关键词所属的词库的标识和关键词所属的词库所在的服务器的标识。
可选的,所述方法还包括:
对待检测的文本进行关键词划分,得到多个待匹配关键词。
第二方面,本发明实施例提供一种关键词匹配装置,包括:
查找模块,用于从本地缓存中查找待匹配关键词所属的目标词库的标识和目标词库所在的目标服务器的标识,词库为多个关键词的集合,不同的词库以维度划分且被分布式缓存在多个服务器上,所述维度用于区分不同的场景;
获取模块,用于根据目标词库的标识和目标服务器的标识从目标服务器中获取目标词库;
匹配模块,用于根据待匹配关键词和目标词库中的关键词的属性进行关键词匹配,得到匹配结果,所述属性为关键词在目标词库对应维度下的具体含义。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京城市网邻信息技术有限公司,未经北京城市网邻信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711482337.0/2.html,转载请声明来源钻瓜专利网。