[发明专利]一种基于Elasticsearch的公文检索方法及装置在审
申请号: | 202310031390.8 | 申请日: | 2023-01-10 |
公开(公告)号: | CN116383375A | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 周嫣然;刘学谦;马延美 | 申请(专利权)人: | 北京方寸无忧科技发展有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/258;G06F40/30;G06F16/33;G06F16/31;G06F40/289;G06F18/214;G06F18/241 |
代理公司: | 北京博智永信知识产权代理事务所(普通合伙) 16169 | 代理人: | 王子溟 |
地址: | 100091 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 elasticsearch 公文 检索 方法 装置 | ||
本申请公开了一种基于Elasticsearch的公文检索方法及装置。所述基于Elasticsearch的公文检索方法包括:获取公文数据;获取每个公文数据的文字信息;根据文字信息对各个公文数据进行分类,从而为每个公文数据提供分类标签,其中,每个公文数据至少具有一个子母标签,一个子母标签包括一个母标签以及至少一个从属于该母标签的子标签;根据分类后的结果将获取的公文数据分别进行存储,从而形成至少两个Elasticsearch数据库;获取待检索信息;根据待检索信息,自各个所述Elasticsearch数据库中的一个或多个Elasticsearch数据库进行检索,从而获取符合条件的公文数据。本申请的基于Elasticsearch的公文检索方法应用于政府机构的公文检索,可以有效地提高公文检索的效率和准确率。
技术领域
本申请涉及公文检索技术领域,尤其涉及一种基于Elasticsearch的公文检索方法以及基于Elasticsearch的公文检索装置。
背景技术
公文,不同于一般的文章,是一种具有一定格式的应用文,是一种具有法律效力和规范的文体。相比于其他领域的文体,公文是更加规范和具有逻辑的,公文的作者,一般只能是法定的社会组织及其法人代表。随着国家机关和各种组织的业务不断增多,对公文的增删改查等需求也愈加强烈。
经过调研,发现现阶段的公文检索系统大多是以Elasticsearch(简称ES)为基础搭建的检索系统,与一般的全文检索系统没有明显的不同,没有公文检索的针对性;且只是针对搜索内容进行搜索,没有对搜索内容做纠错,对用户的输入有较高的依赖性,对结果的返回也有局限性。
现有的全文检索系统架构整体可以分为三部分:客户端、服务端和ES端,这三部分分别处理不同的请求,实现不同的功能,互相配合,共同实现文章的检索。
1.客户端
主要包括页面呈现,发送请求,数据渲染等功能,发送请求一般通过Javascript、Ajax或AngularJS实现,具体来说,就是将用户输入的搜索内容封装成请求发送给服务端,告知用户在做什么操作,查询什么内容。
2.服务端
连接客户端和ES端,在中间起到桥梁的作用。一方面要接收客户端的请求(用户输入的检索内容等),将请求解析后,编写查询逻辑,传递给ES端。一方面接受到ES端的反馈后,将返回的数据解析成设定好的格式,返给客户端。可以通过Spring、Java、python等来实现。
3.Elasticsearch
作为搜索引擎,数据是第一位的,只有将充足的基础数据存入ES数据库中,才能提供完备的检索服务。初期需要根据数据关系设计库表、关联表,再将基础数据存入ES数据库的索引中,ES库会自动进行分布式存储,并建立倒排索引。然后根据服务端设定好的查询逻辑进行查询,返回符合的结果。
现有的依赖于ES的检索系统主要存在两大问题:返回结果准确率不高和查询速度慢。接下来,针对这两大问题进行详细的阐述。
1.返回的结果准确率不高。
虽然对于检索系统来说,没有一个标准的答案来衡量结果的准确率,但是一般认为,与搜索词越相关,越贴近用户的表面需求和潜在需求,检索系统的性能越好。但是就现有的公文检索系统来说,返回结果完全依靠ES库中的评分机制,结果的准确率是有很大的提升空间的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京方寸无忧科技发展有限公司,未经北京方寸无忧科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310031390.8/2.html,转载请声明来源钻瓜专利网。