[发明专利]一种文本知识提取方法、装置、设备及存储介质在审
申请号: | 201910178007.5 | 申请日: | 2019-03-08 |
公开(公告)号: | CN109871542A | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 王涛;王静;张凡龙 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图谱 文本知识 结构化信息 描述信息 知识表示 构建 可读存储介质 表示数据 存储介质 结构信息 描述数据 模型构建 潜在关系 实体结构 提取装置 细节描述 信息融合 置信度 单词 挖掘 名字 补充 帮助 | ||
本发明公开了一种基于知识图谱的文本知识提取方法,涉及知识图谱技术领域,为每个实体构建两种表示数据,基于结构的表示以及基于描述的表示,将实体结构化数据与实体描述数据进行信息融合,基于结构的表示能够挖掘实体名字中有相同单词的相似实体之间可能存在的潜在关系,而描述表示能够作为知识图谱中置信度较高的结构化信息的辅助帮助模型构建更准确的知识表示,将实体的描述信息与知识图谱自身的结构信息结合起来,充分考虑了实体描述信息中深入的细节描述作为知识图谱中已有结构化信息的辅助与补充,构建了更全面的知识表示。本发明还公开了一种基于知识图谱的文本知识提取装置、设备及一种可读存储介质,具有上述有益效果。
技术领域
本发明涉及知识图谱技术领域,特别涉及一种基于知识图谱的文本知识提取方法、装置、设备及可读存储介质。
背景技术
知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是【实体—关系—实体】三元组,以及实体及其【相关属性—值】对,实体之间通过关系相互联结,构成网状的知识结构。作为人工智能时代最重要的知识表示方式之一,知识图谱能够使得企业能够通过互联网便利地获取用户们更为广泛的反馈信息,目前知识图谱广泛应用于用户兴趣分析中。
用户兴趣通常分布在Web上的不同系统中,在分析用户兴趣时需要基于原始数据进行文本信息的获取,根据获取的文本信息进行进一步数据分析。相关技术中知识表示学习的方法主要集中在用户兴趣的结构化信息分析中,但基于结构性信息对于在分布式环境中获得用户兴趣的相对完整描述不是非常有效。
因此,如何提升文本信息提取能力,提升知识表示学习的性能,是本领域技术人员需要解决的技术问题。
发明内容
本发明的目的是提供一种基于知识图谱的文本知识提取方法,该方法嵌入多源信息很好地作为知识图谱中已有结构化信息的辅助与补充,提供更加深入的细节描述,提升了知识表示学习的性能;本发明的另一目的是提供一种基于知识图谱的文本知识提取装置、设备及一种可读存储介质。
为解决上述技术问题,本发明提供一种基于知识图谱的文本知识提取方法,包括:
对输入的知识图谱进行数据筛选,得到实体描述的文本信息;
将所述实体描述的文本信息输入至描述表示构建模型进行基于描述的知识表示的构建,生成实体描述数据;其中,所述描述表示构建模型为预训练的基于神经网络的描述编码器;
将根据所述知识图谱提取的实体结构化数据与所述实体描述数据进行信息融合,得到融合数据,并将所述融合数据作为所述知识图谱数据的知识表示。
可选地,将所述实体描述的文本信息输入至描述表示构建模型进行基于描述的知识表示的构建,包括:
对所述实体描述的文本信息进行数据预处理,得到待处理词向量;其中,所述数据预处理包括:非可用词剔除以及词向量构建;
将所述待处理词向量通过卷积层进行数据特征提取,得到卷积输出向量;
将所述卷积输出向量通过池化层进行下采样,得到实体描述数据。
可选地,所述池化层包括最大池化层以及平均池化层;则将所述卷积输出向量通过池化层进行下采样,包括:
将所述待处理词向量通过最大池化层进行最大池化,得到第一池化输出向量;
将所述初始池化输出向量通过所述平均池化层进行均值池化,得到第二池化输出向量,并将所述第二池化输出向量作为所述实体描述数据。
可选地,将根据所述知识图谱提取的实体结构化数据与所述实体描述数据进行信息融合,包括:
将根据所述知识图谱数据预先提取实体结构化数据以及所述实体描述数据映射至同一向量空间,得到结构向量以及描述向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910178007.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于多语言多领域的命名实体识别方法
- 下一篇:一种意图获取方法及系统