[发明专利]多类型知识检索和统计方法、装置、存储介质、设备在审
| 申请号: | 202211625173.3 | 申请日: | 2022-12-16 |
| 公开(公告)号: | CN115858729A | 公开(公告)日: | 2023-03-28 |
| 发明(设计)人: | 杨娟;翟士丹;林健 | 申请(专利权)人: | 北京海致星图科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/338;G06F16/36;G06F16/432;G06F16/438;G06F16/483 |
| 代理公司: | 北京棘龙知识产权代理有限公司 11740 | 代理人: | 张庆龙 |
| 地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 类型 知识 检索 统计 方法 装置 存储 介质 设备 | ||
本发明提供一种多类型知识检索和统计方法、装置、存储介质和设备,所述方法包括:对待检索知识进行解析,针对文本检索,对解析后的待检索知识进行语义识别;根据语义识别结果对待检索知识分别进行全文检索、向量化检索、检索式问答检索及图谱检索,针对图片检索,对解析后的待检索知识进行向量化处理,根据向量化结果对待检索知识进行知识内图片检索和图片类知识检索,将全文检索、向量化检索、检索式问答检索及图谱检索结果或者知识内图片检索和图片类知识检索结果输入精排序模型进行重新排序,获得待检索知识的检索结果,对检索结果进行统计分类。本发明能够能够对不同类型的知识进行检索,且能够对检索结果从不同的维度进行统计。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种多类型知识检索和统计方法、装置、存储介质和设备。
背景技术
随着科技的发展,人们在日常生活和工作中产生了各类文档、图片和音视频数据,当人们需要对其进行搜索的时候会比较困难,操作系统搜索一般只针对文件标题,不能对文件内容进行检索。
目前市面上更多的是对单一的知识进行搜索,很少有支持多类型知识搜索的产品,更少存在对知识搜索进行多维度统计的产品。这种检索方式只能对打开的文档进行检索,检索的文档类型单一,某种工具只能对一类文档进行检索,对于图片、音频和视频只能根据认为的判断是否相似,使用成本高且效率低下。
发明内容
有鉴于此,本发明提供一种多类型知识检索和统计方法、装置、存储介质和设备,能够对不同类型的知识进行检索,且能够对检索结果从不同的维度进行统计。
第一方面,本发明实施例提供一种多类型知识检索和统计方法,所述方法包括:
对待检索知识进行解析,获得结构化数据;
根据所述待检索知识的属性标识执行与所述属性标识对应的检索方式,所述检索方式包括文本检索和图片检索;
当所述检索方式为文本检索时,对所述待检索知识的结构化数据进行语义识别;
根据所述语义识别结果对所述待检索知识分别进行全文检索、向量化检索、检索式问答检索及图谱检索;
当所述检索方式为图片检索时,对所述待检索知识进行向量化处理;
根据所述向量化结果对所述待检索知识进行知识内图片检索和图片类知识检索;
将所述全文检索、向量化检索、检索式问答检索及图谱检索结果或者所述知识内图片检索和图片类知识检索结果输入精排序模型进行重新排序,获得所述待检索知识的检索结果;
对所述检索结果进行统计分类。
进一步地,对所述待检索知识的结构化数据进行语义识别之前,以及对所述待检索知识进行向量化处理之前所述方法还包括:
获取用户身份标识;
根据用户身份标识在知识库中筛选与所述用户身份标识对应的知识列表,其中,所述知识库中包含多种知识类型的数据。
进一步地,使用自然语言处理方法对所述待检索知识的结构化数据进行语义识别。
进一步地,对所述待检索知识的结构化数据进行语义识别至少包括:中文分词、命名实体标识、词性标注、同义词分析、词向量分析、依存文法分析、词位置分析、语义归一化、知识纠错、标签提取。
进一步地,对所述检索结果进行统计分类包括:
根据所述检索结果中各知识中实体知识的创建时间、知识分类、知识拥有者、知识标签、知识类型进行统计分类。
第二方面,本发明实施例提供一种多类型知识检索和统计装置,所述装置包括:
解析模块,用于对待检索知识进行解析,获得结构化数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海致星图科技有限公司,未经北京海致星图科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211625173.3/2.html,转载请声明来源钻瓜专利网。





