[发明专利]基于知识图谱的领域知识推送方法有效
申请号: | 202011522006.7 | 申请日: | 2020-12-21 |
公开(公告)号: | CN112699246B | 公开(公告)日: | 2022-09-27 |
发明(设计)人: | 李蔚清;颜于升 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/435;G06F40/289 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 岑丹 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 领域 推送 方法 | ||
1.一种基于知识图谱的领域知识推送方法,其特征在于,具体步骤为:
步骤1、构建文本知识库,所述文本知识库由领域知识文本构成;
步骤2、针对知识库文本进行语义分析和主题建模;
步骤3、通过对领域知识图谱进行图嵌入式处理获得知识点的语义分布向量;
步骤4、依据用户任务描述、任务主题建立任务上下文特征向量;
步骤5、将用户任务描述文本中的领域实体与步骤3中的领域知识图谱进行实体对齐,基于图谱节点路径和图节点语义分布特征进行特征扩展并进行任务关联知识召回,具体步骤为:
步骤5.1、根据用户任务实体获取任务描述和任务关联系统构件,在知识图谱上进行实体对齐操作获得图谱上对应任务实体的子图;
步骤5.2、计算步骤5.1中子图实体的嵌入向量,获得子图的三跳内各路径上实体节点的词嵌入向量;
步骤5.3、将图的各路径中实体节点进行关键路径扩展;
步骤5.4、将步骤4的用户任务上下文特征、任务实体的图嵌入向量、子图节点组合的嵌入向量作为初步的召回条件进行知识库文本过滤,获取任务关联节点知识粗精度的召回文本;
步骤6、将步骤5获得的召回文本与用户任务进行文本相似度计算,获得召回文本得分,具体方法为:
步骤6.1、根据步骤2获得的文本知识库主题模型,分别计算召回文本和用户任务的主题分布向量;
步骤6.2、根据词移距离算法,对召回文本与任务描述进行字层面的相似度计算,获得召回文本的词移距离相似度得分;
步骤6.3、根据向量空间的余弦公式进行相似度计算获得召回文本主题的相似度得分;
步骤6.4、基于加权投票策略进行得分计算,根据任务对其中词移距离权重和主题相似度权重进行调整;
步骤7、根据得分将排序结果文本推送给用户;
步骤8、若用户任务结束则推送终止;当用户场景和状态变化时则重复步骤4至7。
2.根据权利要求1所述的基于知识图谱的领域知识推送方法,其特征在于,文本知识库的构建方法为:按照领域任务需求进行知识范围确定,对内容进行筛选;对文本进行分句,过滤停用词;将最终的文本集合构建为文本知识库。
3.根据权利要求1所述的基于知识图谱的领域知识推送方法,其特征在于,针对知识库文本进行语义分析的具体方法为:
将知识文本进行分词,采用无监督的WORD2VEC词嵌入算法对文本进行训练获取词的语义分布向量;
采用基于词向量加权和的方法计算文本句子的语义向量。
4.根据权利要求1所述的基于知识图谱的领域知识推送方法,其特征在于,进行文本主题建模的具体方法为:
将知识库中的文本进行分词,根据分词结果对知识库中文本句子做词频统计,将词频低于预设阈值的文本进行词过滤;
对句子进行字符处理,获得知识库文本的BIGRAM字典并用于构建文本到对应词袋向量的映射表;
通过映射表获得知识库文本的词袋向量,将其作为LDA算法的输入进行训练,获得知识库文本的主题分布向量。
5.根据权利要求1所述的基于知识图谱的领域知识推送方法,其特征在于,获取知识图谱节点语义分布向量的具体方法为:
步骤3.1、构建领域知识图谱,包括命名实体识别和关系抽取两个任务,采用基于BERT预训练模型进行有监督学习获得领域知识实体和实体间关系;
步骤3.2、获取图谱节点语义分布向量,通过图卷积神经网络对领域知识图谱中的节点拓扑进行学习,获得节点的语义分布向量。
6.根据权利要求1所述的基于知识图谱的领域知识推送方法,其特征在于,建立任务上下文特征的具体方法为:
步骤4.1、将用户任务描述文本进行分词处理,利用步骤2训练的词向量进行任务描述的向量化表示,作为此项用户任务的一个语义特征;
步骤4.2、将用户任务主题中的实体进行抽取,利用步骤3训练的知识图谱节点语义分布向量获得运检任务关联的实体表示向量,作为此项用户任务的一个分类特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011522006.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电网架设用拖线器
- 下一篇:语音数据处理的方法、装置、设备及存储介质