[发明专利]一种半自动的知识图谱构建方法有效
申请号: | 201811324969.9 | 申请日: | 2018-11-08 |
公开(公告)号: | CN109522418B | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 杨红飞 | 申请(专利权)人: | 杭州费尔斯通科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F16/332;G06F40/279 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静;邱启旺 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种半自动的知识图谱构建方法,现有的关系抽取方法大都依赖于预先确定好的关系类型体系,这一过程是复杂的而且时间周期很长,本发明基于依存分析,针对多个中文句式进行了针对性处理,结合了语义词典,在输出开放关系的同时,对关系中的词语进行语义标注,并对未登录词的语义进行基于统计的推断,对大量语料上进行的语义关系模式进行统计聚类,形成关系类型体系,在这一过程中,大部分环节是自动进行的,其中可以对未登录词的语义标注和关系聚类结果进行人工检查;与现有的开放关系抽取方法相比,本发明进行了优化和扩展,开放关系的抽取和语义关系类型的形成相互补益,提高了两者的准确率。 | ||
搜索关键词: | 一种 半自动 知识 图谱 构建 方法 | ||
【主权项】:
1.一种半自动的知识图谱构建方法,其特征在于,该方法包括以下步骤:第一步:对目标文本进行句子分割、分词、词性标注得到词性标签、依存分析得到依存标签和依存树,具体为:把目标文本分割成句子,对每个句子分词得到词的序列,对每个句子进行词性标注得到每个词的词性标签,对每个句子进行依存分析,对存在语法依赖关系的两个词得到依存标签,所有词的依存标签构成了依存树;第二步:基于词性标签和依存标签进行名词短语检测、动词短语检测、候选关系检测;名词短语检测:名词短语即包含名词的多个连续的词组成的短语,对句子中的每个名词,名词前后的词需要满足以下条件才能拼接起来形成名词短语:a.在依存树路径上包含如下词性标签的词可以拼接到当前名词形成名词短语:a:形容词、b:区别词、w:标点、n:名词、nr:人名、ns:地名、nt:机构名、nx:非中文名词、r:介词、m:数词、q:量词、t:时间词、s:处所词;b.依存树路径上的依存标签必须是如下标签;ATT:定中关系、COO:并列关系、LAD:左附加关系、RAD:右附加关系、QUC:后置数量关系、PUN:标点关系、NUM:数字关系、QUN:数量关系;c.记录名词短语的中心词,中心词必须是如下词性标签:n:名词、nr:人名、ns:地名、nt:机构名、nx:非中文名词、r:介词、m:数词、q:量词、t:时间词、s:处所词、f:方位词;动词短语检测:在语料上统计依存树上有动宾关系的短语,将出现概率高的宾语与介词有依存关系的短语作为动词短语;候选关系检测:得到名词短语后,计算每两个名词短语A、B之间是否存在关系:在依存树路径上查找A、B的父结点,如果存在共同的父结点,取得最近的共同父结点C,认为C是连接名词短语A、B的动词或动词短语;在向上查找父结点的过程中,父结点的依存标签只能包含如下依存标签:VOB:直接宾语关系、DE:“的”关系、IOB:非直接宾语关系、POB:介宾关系、SBV:主谓关系、LAD:左附加关系、ATT:定中关系、ADV:状中关系、CMP:动补关系、NUM:数字关系、RAD:右附加关系、QUC:后置数量关系、QUN:数量关系、PUN:标点关系、TPC:主题关系,如果不符合,则停止查找;对找到的依存路径进行筛选,如果超过预设的最大长度T1,则放弃该路径;如果路径上不存在SBV、VOB、POB中任意一个,则放弃该路径;找到两个名词短语之间的关系后,再把联系它们的动词或动词短语C连接的其他语法成分也抽取出来,将A、B、C以及C连接的其他语法成分整体作为一个词法关系模式输出,即作为一个候选关系;第三步:结合语义词典,对步骤二得到的词法关系模式即候选关系中的词语进行语义标注,得到候选语义关系模式;对于有多个语义类型的词语,在整个语料文本集合上对所有抽取到的语义关系模式进行统计,从中寻找匹配的模式;如果匹配不到语义关系模式,把多元的语义关系模式退化成多个二元模式,再进行匹配;对于词典中不存在的名词短语中心词即未登录词,在语义词典中查找部分匹配的词,再从语义关系模式集合中进行上述匹配;第四步:对得到的候选语义关系模式进行聚类,得到一组最终的语义关系模式;聚类是通过判断每两个语义关系模式是否相似来进行的,如果两个语义关系模式的动词短语中心语相同或者是近义词,并且两个语义关系模式中的名词短语中心语的语义相同,则认为两个语义关系模式是相似的,可以聚类到一个类别中;聚类结果的每个类别,如果该类别中的语义关系模式的数量大于阈值T2,则认为这是一个合理的语义关系模式;第五步:利用语义词典和步骤四得到的语义关系模式来定义知识图谱,具体定义方式为:根据聚类的语义级别,可以定义不同级别上的关系,在不同语义级别上进行聚类,得到符合应用需求的多个粒度的语义关系模式。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州费尔斯通科技有限公司,未经杭州费尔斯通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811324969.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种公司名的商号抽取方法
- 下一篇:会话信息补全方法及装置