[发明专利]数据索引构建方法、检索方法及装置、介质及电子设备在审
申请号: | 201711461946.8 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108255985A | 公开(公告)日: | 2018-07-06 |
发明(设计)人: | 蔡巍;崔朝辉;赵立军;张霞 | 申请(专利权)人: | 东软集团股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京英创嘉友知识产权代理事务所(普通合伙) 11447 | 代理人: | 南毅宁;魏嘉熹 |
地址: | 110179 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标数据 原始特征 特征词 构建 索引 检索 推理 电子设备 数据索引 准确度 技术支持 索引文件 统一格式 全面性 命中率 图谱 保证 | ||
1.一种数据索引构建方法,其特征在于,所述方法包括:
获取待构建索引的目标数据;
确定所述目标数据的原始特征词;
对所述原始特征词进行相关词扩展,获得扩展特征词;
将所述原始特征词和所述扩展特征词输入至知识图谱进行推理,获得推理特征词;
至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引。
2.根据权利要求1所述的方法,其特征在于,所述目标数据为图像数据、视频数据、音频数据、文本数据中的任一者;所述确定所述目标数据的原始特征词,包括:
当所述目标数据为图像数据时,确定所述图像数据的以下至少一种类型的特征信息:人物特征、事物特征、颜色特征、情感特征、纹理特征、形状特征、空间位置特征,并将获取到的所述特征信息作为所述图像数据的所述原始特征词;
当所述目标数据为文本数据时,对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果作为所述文本数据的所述原始特征词;
当所述目标数据为音频数据时,将所述音频数据转换为对应的文本数据,并对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果作为所述音频数据的所述原始特征词;
当所述目标数据为视频数据时,针对所述视频数据中包含的图像数据,确定所述图像数据的以下至少一种类型的特征信息:人物特征、事物特征、颜色特征、情感特征、纹理特征、形状特征、空间位置特征;针对所述视频数据中包含的音频数据,将所述音频数据转换为对应的文本数据,并对所述文本数据进行以下至少一种处理:信息抽取、命名实体识别及情感分析,所得结果与获取到的所述特征信息一并作为所述视频数据的所述原始特征词。
3.根据权利要求1所述的方法,其特征在于,所述至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引,包括:
创建针对所述目标数据的索引文件,并将所述原始特征词及其对应的特征类型、以及所述推理特征词及其对应的特征类型写入所述索引文件;
将所述索引文件与所述目标数据相关联。
4.根据权利要求3所述的方法,其特征在于,所述至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引,还包括:
将所述目标数据的数据类型、数据来源、ID中的至少一者写入所述索引文件。
5.一种检索方法,其特征在于,所述方法包括:
接收用户输入的检索条件,并根据所述检索条件确定检索意图;
根据所述检索意图查询原始数据库中各数据的索引,获得符合所述检索意图的数据,其中,所述原始数据库中包括多种类型的数据,且各数据的索引是通过权利要求1-4中任一项所述的数据索引构建方法预先构建的;
根据所述符合所述检索意图的数据,获得检索结果。
6.一种数据索引构建装置,其特征在于,所述装置包括:
获取模块,用于获取待构建索引的目标数据;
确定模块,用于确定所述目标数据的原始特征词;
扩展模块,用于对所述原始特征词进行相关词扩展,获得扩展特征词;
推理模块,用于将所述原始特征词和所述扩展特征词输入至知识图谱进行推理,获得推理特征词;
构建模块,用于至少根据所述原始特征词和所述推理特征词构建所述目标数据的索引。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东软集团股份有限公司,未经东软集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711461946.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据解析方法和装置
- 下一篇:基于社区的节点介数中心度更新方法