[发明专利]一种数据处理方法及装置有效
申请号: | 202010001412.2 | 申请日: | 2020-01-02 |
公开(公告)号: | CN111177306B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 申亚坤 | 申请(专利权)人: | 中国银行股份有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/335;G06F16/383 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 古利兰 |
地址: | 100818 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本发明提供一种数据处理方法及装置,获取非结构化文档,并对非结构化文档进行知识梳理,获得对应非结构化文档的知识条目,将非结构化文档和知识条目存储至知识库中,获取检索关键词,并基于检索关键词,以及存储于知识库中的非结构化文档和知识条目进行检索,获得对应检索关键词的目标文档。通过检索关键词检索知识条目,基于知识条目获得目标文档,解决了在知识库中进行全文检索非结构化文档,反馈给用户的效率极低,给用户造成了极差的检索体验的问题,实现了提高检索效率的目的。
技术领域
本发明属于计算机技术领域,具体为涉及一种数据处理方法及装置。
背景技术
目前,知识库中存储有海量的非结构化文档,当存在需求时,通过全文检索的方式在知识库中进行检索,获得需要的非结构化文档。通过对知识库中存储海量的非结构化文档进行检索,很大程度上方便用户在该知识库中获取所需的非结构化文档。
但是,在知识库中进行全文检索非结构化的文档反馈给用户的效率极低,给用户造成了极差的检索体验。
发明内容
有鉴于此,本发明的目的在于提供一种数据处理方法及装置,用于解决在知识库中进行全文检索非结构化的文档,反馈给用户的效率极低,给用户造成了极差的检索体验的问题。技术方案如下:
本发明实施例第一方面公开了一种数据处理方法,所述方法包括:
获取非结构化文档,并对所述非结构化文档进行知识梳理,获得对应所述非结构化文档的知识条目;
将所述非结构化文档和所述知识条目存储至知识库中;
获取检索关键词,并基于所述检索关键词,以及存储于所述知识库中的所述非结构化文档和所述知识条目进行检索,获得对应所述检索关键词的目标文档。
优选的,所述获取非结构化文档,并对所述非结构化文档进行知识梳理,获得对应所述非结构化文档的知识条目,包括:
判断所述非结构化文档表述是否规范;
若是,获取所述非结构化文档中的规范的知识内容;
若否,规范所述非结构化文档中所包含的知识内容,获取规范的知识内容;
对所述规范的知识内容进行知识梳理,获取通过多维度信息对所述知识内容进行描述的知识条目。
优选的,所述获取规范的知识内容之后,对所述规范的知识内容进行知识梳理之前,还包括:
判断所述规范的知识内容中是否包含敏感词;
若所述规范的知识内容中包含敏感词,过滤所述规范的知识内容中的敏感词。
优选的,所述将所述非结构化文档和所述知识条目存储至知识库中,包括:
建立所述非结构化文档和所述知识条目的对应关系,得到关系列表;
将所述关系列表存储至所述知识库中。
优选的,所述获取检索关键词,并基于所述检索关键词,以及存储于所述知识库中的所述非结构化文档和所述知识条目进行检索,获得对应所述检索关键词的目标文档,包括:
获取检索关键词;
基于所述检索关键词对存储于所述知识库中的所述非结构化文档和所述知识条目进行全文检索;
若优先检索到对应所述检索关键词的知识条目,获取所述知识条目对应的非结构化文档;
若优先检索到对应所述检索关键词的非结构化文档,获取对应所述检索关键词的非结构化文档。
本发明实施例第二方面公开了一种数据处理装置,所述装置包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国银行股份有限公司,未经中国银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010001412.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一类含噻唑结构化合物的抗感染用途
- 下一篇:3D存储器件及其制造方法