[发明专利]一种基于语义及语法结构的语句分析方法及系统在审
申请号: | 201611183668.X | 申请日: | 2016-12-20 |
公开(公告)号: | CN106844333A | 公开(公告)日: | 2017-06-13 |
发明(设计)人: | 简仁贤;梅森傑 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京酷爱智慧知识产权代理有限公司11514 | 代理人: | 安娜 |
地址: | 200233 上海市浦东新区自由贸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 语法 结构 语句 分析 方法 系统 | ||
技术领域
本发明属于计算机应用领域,具体涉及一种基于语义及语法结构的语句分析方法及系统。
背景技术
自然语言中大量存在对人类生活中各类事件的描述(小到一个动作,大到一个历史事件),同时也包括事件产生的时间、地点、参与的角色、状态以及事件之间的关系等内容与特征的描述。随着互联网相关技术的兴起,人们越来越多的依赖于网络来获取信息,而互联网的信息呈现出海量、剧增和冗余等特性,为了能更好的监控和运用其中的信息,让机器能够分析文本中的事件,面向事件的语句分析研究显得越来越重要。语句分析就是指对语句中的各成分功能和语义进行分析,将输入句子中单词之间的线性词序,变成一个非线性的数据结构。
目前自然语言处理领域关于语句分析的主要理论包括:依存句法、乔姆斯基发展的形式语法理论即短语结构语法及其扩展,如:词汇功能语法、功能合一语法、广义短语结构语法、中心词驱动的短语结构语法。这些方法的思想都建立在英文的语法知识基础之上,没有从理解事件的角度将句子中的成分划分为事件与事件角色并分析它们之间的关系。目前对于事件的研究大多集中在从文本中识别和抽取事件以及事件角色提取、基于事件的自动文摘和文本自动生成等方面,这些研究都迫切需要本发明的基于事件结构的语句分析方法的支持。
语义角色标注是自然语言处理中的一项核心技术。传统上语义角色标注是利用训练词性标注模型、依存句法分析模型等来达到分析句子中的语义角色。然而,这些模型是分散且非存在于同一系统中。此外,现有的语义角色标注仅能提供已训练完成的系统,无法符合使用者不同的需求,来提供不同类型的训练语料,也无法让使用者自行持续提升效能。
发明内容
针对现有技术中的缺陷,本发明本发明系统结合各种模型,达到独立产生训练语料,以及能够自主修复各个模型来提升语义角色标注之效能。
一种基于语义及语法结构的语句分析方法,其关键在于,包括以下步骤:
步骤1:输入原始句子;
步骤2:利用所述原始句子产生初步训练语料;
步骤3:获取人工修正后的训练语料,定义为中间训练语料;
步骤4:验证所述中间训练语料标注的正确性,如果所述中间训练语料的标注均正确,将所述中间训练语料定义为最终训练语料,并进入步骤5;否则返回步骤3循环执行;
步骤5:将所述最终训练语料带入训练模型。
本发明方法原理:本发明让使用者能独立产生训练语料,以及能够自主修复各个模型来提升语义角色标注之效能。当使用者预计将任意一种语句用作训练语料时,可进行以下过程:先将原始句子输入当前的语句分析系统,产生初步的训练语料;接着由具有语言学背景的专家进行人工标注及修改,并验证语料标注的正确性,若有错误则会返回人工标注的步骤;确认后的最终训练语料会再一次输进系统,并可选择所要训练之模型,例如:词性标注模型、依存句法分析模型、语义角色标注模型,进而提升系统整体效能。
为更好实现本发明,可进一步为:原始句子产生初步训练语料的具体步骤为:
步骤2.1:分词;
步骤2.2:词性标注;
步骤2.3:依存句法分析;
步骤2.4:语义角色分析。
可选的:所述步骤3中,由具有语言学背景的专家对所述初步训练语料的标注进行人工修改和补正。
可选的:所述步骤4中的验证所述中间训练语料标注正确性的具体步骤为:
步骤11:判断所述中间训练语料中资料栏位数量是否正确;是,则进行步骤12;否,则返回步骤3循环执行;
步骤12:判断所述中间训练语料中是否包含动词;是,则进行步骤13;否,则返回步骤3循环执行;
步骤13:判断所述中间训练语料中动词是否有相对应的语义角色标记;是,则进行步骤14;否,则返回步骤3循环执行;
步骤14:判断所述中间训练语料中每个分词的依存关系是否有正确连结;是,则进行步骤5;否,则返回步骤3循环执行。
可选的:所述训练模型为词性标注模型,或者为依存句法分析模型,或者为语义角色标注模型。
基于本发明方法的语句分析系统,包括语句分析模块,用于将原始句子生成初步训练语料;
语料验证模块,用于验证所述中间训练语料标注的正确性。
可选的:所述语句分析模块中含有分词模型、词性标注模型、依存句法分析模型和语义角色标注模型。
可选的:所述语料验证模块中含有资料栏位数查询模型、动词查询模型、语义角色标记查询模型和依存关系验证模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611183668.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种方便清灰的艾灸盒
- 下一篇:一种护理用贴合脸部的喂药装置