[发明专利]数据索引构建方法、检索方法及装置、介质及电子设备在审
申请号: | 201711461946.8 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108255985A | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 蔡巍;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 南毅宁;魏嘉熹 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标数据 原始特征 特征词 构建 索引 检索 推理 电子设备 数据索引 准确度 技术支持 索引文件 统一格式 全面性 命中率 图谱 保证 | ||
本公开涉及一种数据索引构建方法、检索方法及装置、介质及电子设备,所述方法包括:获取待构建索引的目标数据;确定所述目标数据的原始特征词;对所述原始特征词进行相关词扩展,获得扩展特征词;将所述原始特征词和所述扩展特征词输入至知识图谱进行推理,获得推理特征词;至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引。一方面,可以保证该目标数据的索引的全面性和准确度,提高该目标数据的命中率,有效提高基于该索引进行检索的结果的准确度。另一方面,通过本公开的方法,可以对不同类型的目标数据建立统一格式的索引文件,为实现基于不同类型数据的综合检索提供技术支持。
技术领域
本公开涉及信息检索领域,具体地,涉及一种数据索引构建方法、检索方法及装置、介质及电子设备。
背景技术
信息检索泛指从包含丰富内容的信息集中找到所需要的或感兴趣的信息或知识的过程,信息检索的主要任务包括对信息项的表示、存储、组织和访问。
现有技术中,检索技术主要是面向文本的,如,Google、Yahoo和百度搜索引擎等。随着检索技术的发展,对于单一媒体数据,如图像数据、音频数据,可以基于其内容建立其对应的索引。例如,可以通过字符识别技术翻译图像数据中的文字信息,可以通过人脸识别数据确定图像数据中的人物,从而获得人物信息,之后,可以将该文字信息和人物信息添加到该图像数据的索引中。
然而,在对数据库中的数据进行检索时,由于用户的使用习惯。技术领域、知识水平的不同,对于同一目标的检索条件也都不相同。在这种情况下,基于上述方式建立的索引进行检索时,对用户输入的检索条件的要求较高,且检索的局限性较大、准确度较低。
发明内容
本公开的目的是提供一种可以多种类型通用的数据索引构建方法、检索方法及装置、介质及电子设备。
为了实现上述目的,根据本公开的第一方面,提供一种数据索引构建方法,所述方法包括:
获取待构建索引的目标数据;
确定所述目标数据的原始特征词;
对所述原始特征词进行相关词扩展,获得扩展特征词;
将所述原始特征词和所述扩展特征词输入至知识图谱进行推理,获得推理特征词;
至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引。
可选地,所述目标数据为图像数据、视频数据、音频数据、文本数据中的任一者;
所述确定所述目标数据的原始特征词,包括:
当所述目标数据为图像数据时,确定所述图像数据的以下至少一种类型的特征信息:人物特征、事物特征、颜色特征、情感特征、纹理特征、形状特征、空间位置特征,并将获取到的所述特征信息作为所述图像数据的所述原始特征词;
当所述目标数据为文本数据时,对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果作为所述文本数据的所述原始特征词;
当所述目标数据为音频数据时,将所述音频数据转换为对应的文本数据,并对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果作为所述音频数据的所述原始特征词;
当所述目标数据为视频数据时,针对所述视频数据中包含的图像数据,确定所述图像数据的以下至少一种类型的特征信息:人物特征、事物特征、颜色特征、情感特征、纹理特征、形状特征、空间位置特征;针对所述视频数据中包含的音频数据,将所述音频数据转换为对应的文本数据,并对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果与获取到的所述特征信息一并作为所述视频数据的所述原始特征词。
可选地,所述至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711461946.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据解析方法和装置
- 下一篇:基于社区的节点介数中心度更新方法