[发明专利]对疑似词进行处理的方法和装置有效
申请号: | 202010063143.2 | 申请日: | 2020-01-19 |
公开(公告)号: | CN111274805B | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 尹永华;黄培;侯亚乾 | 申请(专利权)人: | 上海众言网络科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/12;G06F16/33 |
代理公司: | 北京卓唐知识产权代理有限公司 11541 | 代理人: | 卜荣丽 |
地址: | 200030 上海市徐汇区宜山路7*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 疑似 进行 处理 方法 装置 | ||
本发明提供一种对疑似词进行处理的方法和装置,该方法包括:将获取的待检测文本通过nameko微服务框架进行分发;将分发的文本切割为单词数组;利用深度优先算法遍历单词数组的单词个体,获取疑似词;将疑似词与预设词组进行匹配,确定匹配组合后的疑似词组;利用nameko微服务框架消费者调用代码完成对疑似词组的处理。通过本发明业务方客户端无需等待,将需要处理的数据分发到指定消息队列即可,不会影响业务服务器,处理过程独立成一套微服务,可以单独更新启动及维护,当需要改变疑似词组合时,仅在疑似词服务器上进行即可,可达到实时效果;同时,在匹配方面,疑似词树启动时只需构建一次树结构,存在内存缓存,检测速度快。
技术领域
本发明涉及计算机技术领域,尤其涉及一种对疑似词进行处理的方法和装置。
背景技术
服务器在待处理文本所处的消息队列里,会对一些没有出现在字典中的词我们称为“疑似词”进行处理,通常会利用服务器对疑似词的组合完成查询和更新,每查询一次就要更新一次业务代码,这样在待检测文本数据很大的情况下,会由于每次的更新和疑似词的重新匹配,导致匹配效率降低,且服务器工作负荷加重。
鉴于此,急需一种对疑似词进行快速处理且不影响服务器正常运行的方法。
发明内容
为了解决现有技术匹配效率低,服务器负荷加重的问题,本发明提供一种对疑似词进行处理的方法和装置。
第一方面,本发明提供一种对疑似词进行处理的方法,该方法包括:
将获取的待检测文本通过nameko微服务框架进行分发;
将分发的文本切割为单词数组;
利用深度优先算法遍历单词数组的单词个体,获取疑似词;
将疑似词与预设词组进行匹配,确定匹配组合后的疑似词组;
利用nameko微服务框架消费者调用代码完成对疑似词组的处理。
进一步地,利用深度优先算法遍历单词数组的单词个体,获取疑似词包括;
利用nameko微服务框架内多个消费者,完成深度优先算法遍历对单词数组的单词个体,获取疑似词。
进一步地,利用nameko微服务框架消费者调用代码完成对疑似词组的处理包括:
将疑似词组输入待处理消息队列中;
nameko微服务框架消费者调用代码,对待处理消息队列中的疑似词组进行处理。
进一步地,利用nameko微服务框架消费者调用代码完成对疑似词组的处理之后还包括:
获取疑似词组的处理结果;
利用Flask构建的web服务,对疑似词组的处理结果进行实时查看。
第二方面,本发明提供一种对疑似词进行处理的装置,该装置包括:
分发模块,用于将获取的待检测文本通过nameko微服务框架进行分发;
切割模块,用于将分发的文本切割为单词数组;
疑似词获取模块,用于利用深度优先算法遍历单词数组的单词个体,获取疑似词;
匹配组合模块,用于将疑似词与预设词组进行匹配,确定匹配组合后的疑似词组;
处理模块,用于利用nameko微服务框架消费者调用代码完成对疑似词组的处理。
进一步地,疑似词获取模块包括:
遍历单元,用于利用nameko微服务框架内多个消费者,完成深度优先算法遍历对单词数组的单词个体,获取疑似词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海众言网络科技有限公司,未经上海众言网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010063143.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:在无线网络中的设备隔离
- 下一篇:一种基于词袋多目标学习的后缀翻译方法