[发明专利]一种基于建构的概念词义发展脉络的提取方法在审
申请号: | 201910694294.5 | 申请日: | 2019-07-30 |
公开(公告)号: | CN110502640A | 公开(公告)日: | 2019-11-26 |
发明(设计)人: | 谢振平;任立园;刘渊;詹千熠 | 申请(专利权)人: | 江南大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/31;G06F16/35;G06F16/951;G06F17/27 |
代理公司: | 21200 大连理工大学专利中心 | 代理人: | 梅洪玉;戴风友<国际申请>=<国际公布> |
地址: | 214122 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于计算机技术领域,涉及一种基于建构的概念词义发展脉络的提取方法。本发明首先将领域知识以建构知识网络形式表征,分析知识间的具有解释性的认知语义关系,生成知识建构关系,获取知识的解释支撑集。然后在不同时空域下,挖掘知识对之间演化关系,基于建构知识网络,对不同时间域内的知识采用聚类算法进行演变融合,最终抽取出知识的演化脉络,帮助用户准确理解知识间关系,弥补知识缺陷。本发明所述方法能够作为领域知识系统的一个重要服务内容,智能高效地帮助用户梳理知识的演化过程,获取知识之间的关系,分析领域知识发展的关键知识节点,使用户更容易发现优质知识资源。 | ||
搜索关键词: | 建构 领域知识 知识网络 计算机技术领域 词义 服务内容 关键知识 聚类算法 形式表征 演化关系 演化过程 语义关系 知识缺陷 知识资源 解释性 时间域 空域 取出 分析 认知 梳理 帮助 智能 融合 挖掘 支撑 发现 | ||
【主权项】:
1.一种基于建构的概念词义发展脉络的提取方法,其特征在于,包括以下步骤:/n第一步,领域知识抽取/n1.1批量爬取不同领域的知识数据:按照不同领域的划分,爬取不同领域知识,按适当时间段先后顺序整理合成一个时空域知识文档;/n1.2知识数据去噪:去除时空域知识文档内获取到的结构化/非结构化知识数据的噪声,包括符号、链接和乱码;/n1.3分词:采用分词算法将经过去噪处理的时空域知识文档进行分词处理;/n1.4分词结果去噪:去除分词结果中的噪声;/n1.5关键词分析:运用TF-IDF算法计算关键词的权重,引入关键词出现的位置、关键词所在句子长度、关键词词向量、知识网络中关键词节点的建构渗透深度和广度,最终得出一组带有权重的候选关键词;/n1.6关键词抽取:按候选关键词的权重大小给关键词排序,取权重大的top-k个关键词,表示不同时空内的关键领域知识;/n1.7关键词近邻关系抽取:使用词向量工具,将关键词映射到高维空间向量,计算词向量之间余弦距离,选取与目标知识距离最近的top-n个词作为其近邻词,余弦距离作为边权重,形成初始近邻知识网络,网络节点代表知识,节点间的边权重表征为语义距离;/n第二步,知识建构关系生成/n在初始近邻知识网络中,定义其他知识到目标知识的联想语义支撑度来解释建构关系,基于初始近邻知识网络,引入网络节点间的随机游走思想,基于主题模型原理的扩展,定义并描述联想语义生成模型,对基于联想随机游走机制的语料文本知识有序词序列的语义生成过程进行建模,并对联想语义生成模型进行模型训练和参数估计,从而学习出概念词分布和实现建构语义关系的抽取;/n第三步,建构知识网络/n第一步和第二步骤实现了建构知识网络的构建,将知识的解释知识标记在建构知识网络中;/n第四步,知识对演化关系挖掘/n4.1分词:对文档提取的关键词导入NLPIR分词工具,作为用户自定义词典,使分词工具能够实现粒度较大的分词;对单篇文档进行分词,筛选分词结果中的用户自定义词,初步得到文档关键词序列S;/n4.2合并重复词:合并序列中相邻重复出现的关键词,得到相邻关键词不重复的新序列S';/n4.3统计序列S'中两两关键词对的关系,按{sij,dij,nij}的格式进行存储;/n其中,sij表示该关系,dij表示关系在文档中的语义距离,nij表示关系出现的次数;/n统计所有文档中出现的关系,重复出现的关系,dij值累加,nij值累加;最终得到每一对关系的平均语义距离及出现的次数;计算每一对关系的演化距离,作为知识网络边的权重;以知识作为网络节点,以演化距离作为网络边的权重,逐年构建知识网络,并根据相邻年份重复节点自动形成时空域联合知识网络;/n第五步,知识流融合聚类/n时空域联合知识网络中,针对不同知识流的渗入,采用骨架聚类方法进行局部聚合,将不同时空域中的知识网络进行聚类划分,相邻节点簇以骨架节点为聚类中心构成一个知识主题;聚类系数值最小的节点是主题聚类中心骨架;节点分布在不同的知识主题中;/n5.1骨架节点聚类:相邻节点簇以骨架节点为聚类中心构成一个知识主题,计算节点聚类系数,聚类系数值最小,则节点s是主题聚类中心,即骨架节点;/n5.2整条骨架主题聚类:计算整条骨架的主题聚类系数,根据骨架节点聚类系数平均值来选取最优的骨架,骨架的聚类系数平均值最小,则认为该最短路径对应的骨架是一条理想演化路径;/n第六步,知识演化脉络抽取/n将所有的骨架节点进行连接,整合成一条完整的骨架,整条骨架全面覆盖知识网络;通过计算整条骨架的主题聚类系数,当骨架的聚类系数平均值最小,则认为该路径对应的骨架是一条理想演化路径;其中采用最短路径作为知识间的最优的演化路径,选取不同的演化起点和演化终点对应不同的最短路径,通过骨架聚类来分析不同最短路径对整个网络结构的演化重要性;使用不同时空域中知识网络之间存在重叠的知识来连接知识网络;/n第七步,演化知识库:将抽取的知识演化路径作为知识的词义发展脉络进行保存,不同的知识词义发展脉络存在交叉,交织成词义发展脉络时空图。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江南大学,未经江南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910694294.5/,转载请声明来源钻瓜专利网。