[发明专利]面向句式结构图解分析的交互式标注方法和系统有效
申请号: | 202010123672.7 | 申请日: | 2020-02-27 |
公开(公告)号: | CN111428469B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 宋继华;彭炜明;管世昱;郭冬冬;宋天宝 | 申请(专利权)人: | 宋继华;彭炜明;郭冬冬;宋天宝 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/289 |
代理公司: | 北京市盛峰律师事务所 11337 | 代理人: | 席小东 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 句式 结构 图解 分析 交互式 标注 方法 系统 | ||
1.一种面向句式结构图解分析的交互式标注方法,其特征在于,包括以下步骤:
步骤S1,对传统正则表达式进行扩展,得到新型正则表达式;所述新型正则表达式支持词对象序列的正则匹配;其中,传统正则表达式以字符串作为输入,以字符为单位匹配,匹配过程中需要不断判断文本中的字符是否等于正则表达式中的字符或属于正则表达式中的字符集;
步骤S2,使用所述新型正则表达式构建句式规则集;具体的,通过句子成分的词形特征和词性特征建立句式规则集,所述句式规则集中的每个句式规则使用所述新型正则表达式表示;其中,所述词性特征为长度为1的英文字母,所述词形特征为长度大于等于1的中文字符串;其中,所述句子成分包括:主语、谓语、宾语、定语、状语和补语;
所述句式规则具体为:
1)获得单层句式结构中各种句子成分的结构规律;
2)根据所述句子成分的结构规律,使用所述新型正则表达式表示每种句子成分;然后,根据句式结构特点,将各个所述句子成分组合在一起,构建得到一条完整的句式规则;
步骤S3,对待标注文本进行分词和词性标注,生成词对象序列;
步骤S4,使用步骤S2构建的所述句式规则集,对步骤S3生成的词对象序列进行正则匹配,将匹配结果以句式结构表达式的形式提示在待标注文本附近的悬浮框内;
其中,步骤S1具体包括以下步骤:
步骤S101,对传统正则表达式的匹配机制进行改造,使所述新型正则表达式支持匹配所述词对象序列;
具体的,所述新型正则表达式的输入为所述词对象序列,所述新型正则表达式的内部定义的比较操作指令为:使所述词对象序列中当前词对象的任一属性与所述新型正则表达式中当前字符集或词汇集进行比较操作;其中,所述词对象序列包括多个词对象;每个所述词对象是面向对象编程语言中的对象,具有词形属性、词性属性、前标点属性和后标点属性;
步骤S102,对传统正则表达式的基本语法进行扩展,使所述新型正则表达式体现词汇的概念;
具体的,对于所述新型正则表达式,首先定义一种表示词汇集合的词汇语法;所述词汇语法为:使用“[#”和“]”包裹一个词汇集合,形式为:“[#词汇集合]”,所述词汇集合特点为:在中括号内部以符号“#”开始,符号“#”作用为:使正则树生成器识别到符号“#”后面为词汇集合;所述词汇集合包括多个词汇,相邻词汇之间使用符号“|”分隔;
然后,扩展所述新型正则表达式内正则树的节点类型以及操作指令类型,添加词汇集合到正则树再到操作指令的转换程序。
2.根据权利要求1所述的面向句式结构图解分析的交互式标注方法,其特征在于,步骤S2中,所述句式规则更具体为:
针对不同句式结构总结得到每种句子成分所有可能的词形或词性或短语结构,并采用所述新型正则表达式进行表示;
对各种句子成分对应的所述新型正则表达式进行分组,并根据句子成分类别,对分组命名,以便将正则匹配结果表示为句式结构表达式时能够提取到各分组对应的句子成分类型。
3.根据权利要求1所述的面向句式结构图解分析的交互式标注方法,其特征在于,步骤S3具体包括以下步骤:
步骤S301,将待标注文本输入到交互式标注平台;所述交互式标注平台对输入的文本进行分词处理,得到多个词语;
步骤S302,对于分词所得词语进行词性标注,方法为:
采用基于统计的方法进行词性标注,即:计算被标注的词语的每个词性在句式结构语料库中出现的频率;预先设定阈值,将低于阈值的词性全部舍去,将高于阈值的多个词性连接成字符串作为当前词语的备选词性;
步骤S303,对于待标注文本,包含标点和词语两种信息;将每一个非标点的词语转换成一个词对象,将词本身写入所述词对象的词形属性,将词性写入所述词对象的词性属性;将标点分为前标点和后标点,其中,所述前标点包括左单引号、左双引号、左小括号和左书名号,其余标点为所述后标点;将所述前标点写入其后紧邻所述词对象的前标点属性中,将所述后标点写入其前紧邻所述词对象的后标点属性中;
所有所述词对象按照在文本中出现的顺序构成一个所述词对象序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宋继华;彭炜明;郭冬冬;宋天宝,未经宋继华;彭炜明;郭冬冬;宋天宝许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010123672.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种显示装置
- 下一篇:面向汉语词汇学习的分级词表动态生成方法和系统