[发明专利]一种融合短语先验知识的依存句法分析方法及装置有效
| 申请号: | 202011123436.1 | 申请日: | 2020-10-20 |
| 公开(公告)号: | CN112016301B | 公开(公告)日: | 2021-02-19 |
| 发明(设计)人: | 张丹;石霖;董晓飞;曹峰;孙明俊 | 申请(专利权)人: | 南京新一代人工智能研究院有限公司 |
| 主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289 |
| 代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
| 地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 融合 短语 先验 知识 依存 句法 分析 方法 装置 | ||
本发明公开了一种融合短语先验知识的依存句法分析方法,先标记不同词性短语的边界,对不同词性短语数据进行依存句法分析,分别训练得到不同词性短语的句法分析模型;将边界标记后的不同词性的短语作为短语识别训练语料,训练得到短语识别模型;对短语识别训练语料进行短语内的依存句法分析,得到短语内依存句法信息,将其作为先验知识训练句法分析模型;测试过程中,将待分析句子输入到短语识别模型中,将句中不同短语部分输入到不同词性短语的句法分析模型中,得到短语内依存句法信息,将其输入到融合短语先验知识的句法分析模型中,输出整句的依存句法分析结果。本发明还提供了基于该方法的依存句法分析装置。本发明能够提高句法分析准确率。
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种融合短语先验知识的依存句法分析方法及装置。
背景技术
句法分析是自然语言处理中的关键底层技术之一,基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。句法分析可以应用于信息检索、机器翻译、情感分析等任务中。目前,常用的句法分析方法有成分句法分析和依存句法分析两种,依存句法具有表现形式简单易懂、易于标注、接近语义关系的优势。
现有的依存句法分析存在语料数据稀疏、长距离依存分析准确率低等问题。
发明内容
发明目的:本发明提出一种高准确率的依存句法分析方法。本发明的另一目的在于提出基于该方法的依存句法分析装置。
技术方案:本发明所采述的融合短语先验知识的依存句法分析方法,该方法包括:
(1)根据依存句法关系对依存句法分析训练数据进行不同词性短语的边界标记,对不同词性短语进行依存句法分析,分别训练得到不同词性短语的句法分析模型;
(2)将边界标记后的不同词性短语作为短语识别训练语料,训练得到短语识别模型;
(3)对所述短语识别训练语料进行短语内的依存句法分析,得到短语内依存句法信息,构建包含短语内依存句法信息的句法分析训练语料,训练得到融合短语先验知识的句法分析模型;
(4)将待分析句子输入所述短语识别模型,识别出所述待分析句子中的不同词性短语,利用所述不同词性短语的句法分析模型识别出不同词性短语内部的依存句法关系,将识别出的不同词性短语内部的依存句法关系输入到所述融合短语先验知识的句法分析模型中,输出待分析句子的依存句法分析结果。
本发明通过所述短语识别模型先将待分析句子的长度进行缩短,以降低后续对待分析句子整句进行依存句法分析的难度。
进一步地,所述词性包括介词、名词。
进一步地,所述依存句法关系主要包括:主谓关系(SBJ)、动宾关系(COMP)、介宾关系(OBJ)、连动关系(AUX)、并列关系(CJTN)、定中关系(AMOD)、复合名词修饰关系(NMOD),状中关系中动词修饰动词(ADV)、介词短语修饰动词(位置LOC、方式MNR、对象DIR)。
进一步地,所述依存句法分析训练数据为对句子进行分词、词性标注后的数据。
进一步地,所述步骤(1)包括:根据依存句法关系得到依存句法树,判断依存于根节点且为状中关系的介词,找到依存于所述介词的最右节点,进行标记。
进一步地,所述步骤(1)包括:根据依存句法关系得到依存句法树,判断依存于根节点且为主谓关系或动宾关系的名词是否存在依存于所述名词且为定中关系或复合名词修饰关系的词,若存在则找到依存于该词的最左及最右节点,进行标记。
本发明所述的融合短语先验知识的依存句法分析装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京新一代人工智能研究院有限公司,未经南京新一代人工智能研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011123436.1/2.html,转载请声明来源钻瓜专利网。





