[发明专利]一种文本知识提取方法、装置、设备及存储介质在审
申请号: | 201910178007.5 | 申请日: | 2019-03-08 |
公开(公告)号: | CN109871542A | 公开(公告)日: | 2019-06-11 |
发明(设计)人: | 王涛;王静;张凡龙 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 罗满 |
地址: | 510060 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图谱 文本知识 结构化信息 描述信息 知识表示 构建 可读存储介质 表示数据 存储介质 结构信息 描述数据 模型构建 潜在关系 实体结构 提取装置 细节描述 信息融合 置信度 单词 挖掘 名字 补充 帮助 | ||
1.一种基于知识图谱的文本知识提取方法,其特征在于,包括:
对输入的知识图谱进行数据筛选,得到实体描述的文本信息;
将所述实体描述的文本信息输入至描述表示构建模型进行基于描述的知识表示的构建,生成实体描述数据;其中,所述描述表示构建模型为预训练的基于神经网络的描述编码器;
将根据所述知识图谱提取的实体结构化数据与所述实体描述数据进行信息融合,得到融合数据,并将所述融合数据作为所述知识图谱数据的知识表示。
2.如权利要求1所述的基于知识图谱的文本知识提取方法,其特征在于,将所述实体描述的文本信息输入至描述表示构建模型进行基于描述的知识表示的构建,包括:
对所述实体描述的文本信息进行数据预处理,得到待处理词向量;其中,所述数据预处理包括:非可用词剔除以及词向量构建;
将所述待处理词向量通过卷积层进行数据特征提取,得到卷积输出向量;
将所述卷积输出向量通过池化层进行下采样,得到实体描述数据。
3.如权利要求2所述的基于知识图谱的文本知识提取方法,其特征在于,所述池化层包括最大池化层以及平均池化层;则将所述卷积输出向量通过池化层进行下采样,包括:
将所述待处理词向量通过最大池化层进行最大池化,得到第一池化输出向量;
将所述初始池化输出向量通过所述平均池化层进行均值池化,得到第二池化输出向量,并将所述第二池化输出向量作为所述实体描述数据。
4.如权利要求1所述的基于知识图谱的文本知识提取方法,其特征在于,将根据所述知识图谱提取的实体结构化数据与所述实体描述数据进行信息融合,包括:
将根据所述知识图谱数据预先提取实体结构化数据以及所述实体描述数据映射至同一向量空间,得到结构向量以及描述向量;
将所述结构向量以及所述描述向量输入至加权融合卷积神经网络按预设句子权重进行加权融合,得到融合数据。
5.如权利要求4所述的基于知识图谱的文本知识提取方法,其特征在于,将所述结构向量以及所述描述向量输入至加权融合卷积神经网络按句子权重进行加权融合,包括:
基于句子级别的attention机制对所述实体描述信息以及所述用户结构化信息进行加权融合。
6.一种基于知识图谱的文本知识提取装置,其特征在于,包括:
数据筛选单元,用于对输入的知识图谱进行数据筛选,得到实体描述的文本信息;
描述构建单元,用于将所述实体描述的文本信息输入至描述表示构建模型进行基于描述的知识表示的构建,生成实体描述数据;其中,所述描述表示构建模型为预训练的基于神经网络的描述编码器;
信息融合单元,用于将根据所述知识图谱提取的实体结构化数据与所述实体描述数据进行信息融合,得到融合数据,并将所述融合数据作为所述知识图谱数据的知识表示。
7.如权利要求6所述的基于知识图谱的文本知识提取装置,其特征在于,所述描述构建单元包括:
预处理子单元,用于对所述实体描述的文本信息进行数据预处理,得到待处理词向量;其中,所述数据预处理包括:非可用词剔除以及词向量构建;
卷积提取子单元,用于将所述待处理词向量通过卷积层进行数据特征提取,得到卷积输出向量;
池化采样子单元,用于将所述卷积输出向量通过池化层进行下采样,得到实体描述数据。
8.如权利要求7所述的基于知识图谱的文本知识提取装置,其特征在于,所述池化层包括最大池化层以及平均池化层;则所述池化采样子单元包括:
最大池化子单元,用于将所述待处理词向量通过最大池化层进行最大池化,得到第一池化输出向量;
均值池化子单元,用于将所述初始池化输出向量通过所述平均池化层进行均值池化,得到第二池化输出向量,并将所述第二池化输出向量作为所述实体描述数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910178007.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种适用于多语言多领域的命名实体识别方法
- 下一篇:一种意图获取方法及系统