[发明专利]一种基于SOLR的关键字词识别办法在审
申请号: | 201610103279.5 | 申请日: | 2016-02-25 |
公开(公告)号: | CN105787029A | 公开(公告)日: | 2016-07-20 |
发明(设计)人: | 郭特宇;程林 | 申请(专利权)人: | 浪潮软件集团有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 刘继枝 |
地址: | 250100 山东省*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 solr 关键 字词 识别 办法 | ||
技术领域
本发明涉及一种,具体地说是一种基于SOLR的关键字词识别办法。
背景技术
随着互联网的飞速发展,数据量与日俱增,越来越多的大型企业或集团的核心业 务数据都存储在关系数据库管理系统(RDBMS)中。但传统的关系数据库缺乏对存储在库中 字段的内容进行检索和分析的核心功能,解决这个问题的关键是建立一条有效的包含数据 整合、高速查询、信息分析的、将数据转化为信息的途径。
从目前信息科学技术的发展来看,海量信息的全文检索技术是最先进、最适合的 解决途径。国内外相继出现了一些全文检索产品,比较著名的有IBM公司研发的关系型数据 库DB2其中的TextExtender,Oracle公司的OracleText,Microsoft公司开发的SQL Server和开源的Lucene[1]全文检索工具包。
利用大型关系数据库本身提供的检索服务还有较多不足,所以不适合作为开发平 台。而Lucene是Apache软件基金会Jakarta项目组的一个子项目,是一个纯Java编写的开放 源代码的全文检索工具包。作为一个开放源代码项目,Lucene自问世之后引发了开放源代 码社群的巨大反响,程序员们不仅使用它构建具体的全文检索应用,而且将之集成到各种 系统软件中去,以及构建Web应用,甚至某些商业软件也采用了Lucene作为其内部全文检索 子系统的核心。近几年,学者对基于Lucene全文检索的应用研究层出不穷,如Web页面检索、 数据库全文检索、图像检索等。
由于搜索引擎功能在门户网站中对提高用户体验有着重在门户网站中涉及大量 需要搜索引擎的功能需求,目前在实现搜索引擎的方案上有集中方案可供选择:
1.基于Lucene自己进行封装实现站内搜索。
2.调用Google、Baidu的API实现站内搜索。
3.基于Solr自己进行扩展实现站内搜索。
Solr是一个基于Lucene的Java搜索引擎服务器。Solr提供了层面搜索、命中醒目 显示并且支持多种输出格式(包括XML/XSLT和JSON格式)。它易于安装和配置,而且附 带了一个基于HTTP的管理界面。Solr已经在众多大型的网站中使用,较为成熟和稳定。
在基于Solr的搜索引擎服务器上,对所有提交的数据内容,未加识别就直接经过 分词器进行检索建立索引纳入到索引库中。同时也没有对该数据内容的相关性进行检查, 导致无关的内容进入到索引库中,降低数据质量。
发明内容
本发明的技术任务是提供一种基于SOLR的关键字词识别办法。
本发明的技术任务是按以下方式实现的,该方法如下:在后台数据库增加关键字 词配置表,分别记录敏感字词库及相关字词库,敏感字词库和相关字词库会保存到缓存中 以提高读取速度,并配置定时更新缓存机制;
在WEB前端用户交互页面中,增加拦截方法,对用户提交的搜索字词调用识别器进行处 理,进行关键字词识别后,根据处理结果确定是拒绝检索返回提醒用户修改搜索字词,或者 通过提交到Solr后台进行检索结果操作,并将检索结果返回给用户。
该方法在提交新数据内容进入到索引库前,调用识别器对数据内容进行处理,进 行关键字词识别后,根据处理结果确定是拒绝纳入索引返回提醒用户修改数据内容,或者 通过提交到Solr后台进行数据抽取、转换,建立索引保存到索引库中。
所述的进行关键字词识别后,如果查询字词中存在敏感字词,则返回命中敏感字 词标识为真,否则返回命中敏感字词标识为假;如果查询字词中存在相关性字词,则返回命 中相关字词标识为真,否则返回命中相关字词标识为假;
若敏感字词标识为假且相关字词标识为真时,提交到Solr搜索器进行搜索处理;若敏 感字词标识为真或相关字词标识为假时,直接返回页面提醒用户修改查询字词。
所述的关键字词识别步骤如下:用户通过WEB页面提交数据内容,数据内容至多由 两个字段构成,包括字段:标题、正文内容;数据内容被传递到分词器,根据分词规则和分词 表,对数据内容进行切词,得到关键字词结果;识别器根据这些查询字词遍历敏感字词库和 相关字词库,得到匹配结果,并返回处理结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司,未经浪潮软件集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610103279.5/2.html,转载请声明来源钻瓜专利网。