[发明专利]面向句式结构图解分析的交互式标注方法和系统有效
申请号: | 202010123672.7 | 申请日: | 2020-02-27 |
公开(公告)号: | CN111428469B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 宋继华;彭炜明;管世昱;郭冬冬;宋天宝 | 申请(专利权)人: | 宋继华;彭炜明;郭冬冬;宋天宝 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 席小东 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 句式 结构 图解 分析 交互式 标注 方法 系统 | ||
本发明提供一种面向句式结构图解分析的交互式标注方法和系统,方法包括:对传统正则表达式进行扩展,得到新型正则表达式;使用新型正则表达式构建句式规则集;对待标注文本进行分词和词性标注,生成词对象序列;使用句式规则集,对词对象序列进行单层句式结构分析,将分析结果以句式结构表达式的形式提示在待标注文本附近的悬浮框内。本发明提供的一种面向句式结构图解分析的交互式标注方法和系统,构建交互式标注环境,语料标注采用逐层分析、逐层标注的模式,且在系统分析结果正确的情况下,所有单层成分的切分可以通过一次鼠标操作完成,因此,提高标注效率。
技术领域
本发明属于自然语言处理技术领域,具体涉及一种面向句式结构图解分析的交互式标注方法和系统。
背景技术
在理论语言学与计算语言学的研究中,树库是一种十分重要的资源。在理论语言学中,树库为语言学家提供了大量基于真实语言的数据,为完善和验证传统的语言学理论奠定了坚实的基础。在计算语言学中,自动句法分析以及各种上层应用都依赖于树库的规模与质量。
主流的树库主要是基于短语结构语法体系和依存结构语法体系进行构建的。经过多年的研究,两种语法体系下的自动句法分析算法的准确率已经能够达到90%左右。所以,树库的建设可以采用首先进行计算机自动分析,然后进行人工校正的方式,进而提高效率。
但是,短语结构语法和依存结构语法都不是教学语法,难以直接应用于汉语语法教学中。目前而言,语法教学研究与中文信息处理之间存在一道很深的信息鸿沟。基于这一事实,有学者从研究服务于语言习得的汉语文本分析技术的角度出发,提出了基于句本位思想的句式结构语法体系(Peng et al.,2015)。与主流的语法体系不同,句式结构语法体系不再局限于探究句子中的二元关系,而是从整体上把握句子的结构:划分句子成分,分析句子成分的排列方式。显然,句式结构语法体系与教学语法十分契合,能够直接应用于汉语语法教学。
目前,依据句式结构语法体系的句法和词法标准,已经开发完成一个句式结构图解标注平台(杨天心,2014;赵敏,2014)用于语料标注。利用该平台,通过人工标注的方式已经建立了约十万句规模的树库。但是,纯人工的标注方式存在两个主要问题:(1)二分的标注过程与句本位思想不符,反而更接近短语结构的思想;(2)句子成分需要逐个切分,标注效率太低。
发明内容
针对现有技术存在的缺陷,本发明提供一种面向句式结构图解分析的交互式标注方法和系统,可有效解决上述问题。
本发明采用的技术方案如下:
本发明提供一种面向句式结构图解分析的交互式标注方法,包括以下步骤:
步骤S1,对传统正则表达式进行扩展,得到新型正则表达式;所述新型正则表达式支持词对象序列的正则匹配;
步骤S2,使用所述新型正则表达式构建句式规则集;具体的,通过句子成分的词形特征和词性特征建立句式规则集,所述句式规则集中的每个句式规则使用所述新型正则表达式表示;其中,所述词性特征为长度为1的英文字母,所述词形特征为长度大于等于1的中文字符串;其中,所述句子成分包括:主语、谓语、宾语、定语、状语和补语;
所述句式规则具体为:
1)获得单层句式结构中各种句子成分的结构规律;
2)根据所述句子成分的结构规律,使用所述新型正则表达式表示每种句子成分;然后,根据句式结构特点,将各个所述句子成分组合在一起,构建得到一条完整的句式规则;
步骤S3,对待标注文本进行分词和词性标注,生成词对象序列;
步骤S4,使用步骤S2构建的所述句式规则集,对步骤S3生成的词对象序列进行正则匹配,将匹配结果以句式结构表达式的形式提示在待标注文本附近的悬浮框内。
优选的,步骤S1具体包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宋继华;彭炜明;郭冬冬;宋天宝,未经宋继华;彭炜明;郭冬冬;宋天宝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010123672.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示装置
- 下一篇:面向汉语词汇学习的分级词表动态生成方法和系统