[发明专利]一种中文句子中并列信息提取方法及装置有效

申请号：	201310315217.7	申请日：	2013-07-25
公开（公告）号：	CN103440252B	公开（公告）日：	2016-11-16
发明（设计）人：	熊文;晋耀红;朱筠	申请（专利权）人：	北京师范大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京三聚阳光知识产权代理有限公司 11250	代理人：	寇海侠
地址：	100875 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种中文句子并列信息提取方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种中文信息处理技术，具体是一种中文句子中并列信息提取方法及装置，属于自然语言处理技术领域。

背景技术

中文信息处理技术经历了面向词语、面向语法结构、面向短语等几个阶段。现在，中文信息处理技术的热点转向面向语义分析。并列信息是一种语义信息，目前对并列信息的研究还只是对句间并列复合句进行研究。另一种较多的并列信息研究还处于词语级并列研究，如并列式词语、并列式合成词的研究，对并列结构内部构造的粘合性、并列结构中并列项的句法结构和序列也有所研究。

苗艳军等提出，并列结构的自动识别对提高句法分析器的性能和工作效率具有重要意义，同时，该识别结果可以直接应用于机器翻译、信息抽取等领域。他们分析了并列结构的相似性，以及边界特征词分布的规则性，探索了基于规则方法的并列结构自动识别，具体地,根据并列成分中心词词性,将并列结构分为五大类,分别针对每类并列结构特点实现自动识别。该方法实现了基于最大熵模型的并列结构自动识别，将并列结构的自动识别转化为一个分类问题，根据连接词的位置分别向左、向右搜索出并列结构的左右边界，并利用校正规则集对识别结果进行校正。这种依赖连接词的左右边界识别的并列信息是一种句内并列信息。且该并列词识别方法基于统计学方法，由于抽取的连接词前后的词语、词性和词形受限，导致后续识别精确度低，识别的边界可能过前或者过后，导致识别出的并列结构残缺、不完整，进而导致后续译文的翻译效果不佳。

发明内容

本发明所要解决的技术问题是现有基于最大熵模型的并列结构自动识别方法基于统计学基础导致的识别出的并列结构残缺影响后续翻译效果的技术问题，从而提供不依赖于统计学的一种中文句子中并列信息提取方法及装置。

为解决上述技术问题，本发明是通过以下技术方案实现的：

一种中文句子中并列信息提取方法，包括：

S1：对所述中文句子进行处理，得到所述中文句子中的所有分词单位构成的分词单位序列集合；

S2：在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选，其中，所述短语是由语法上能够搭配的词组合起来没有句调的语言单位；所述词语是由语素组成的最小的造句单位；所述语素是最小的语音、语义结合体；所述概念指所述分词单位所对应的概念类别；所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度；

S3：加载并列信息标注规则集；

S4：从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中，形成带并列信息标记的标注文本；

S5:对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息，得到构成所述中文句子的最终的并列信息并输出。

所述步骤S1中进一步包括：

使用中文停止词表、分词词表按前向最大长度词语分割，得到所述前向最大长度词语构成的所述分词单位；

对所述中文句子中的所述分词单位中的数字和英语字母进行合并的如下步骤：

合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语；合并所述分词单位中的单个且连续的阿拉伯数字和英语字母生成英文专名；合并所述分词单位中的单个且连续的英语字母生成英文专名。

所述步骤S2进一步包括除概念外的并列信息候选的生成步骤和概念的并列信息候选的生成步骤，其中，除概念外的并列信息候选的生成步骤如下：

S21：使用停止词表过滤所述分词单位中的高频停止词，并过滤掉所述分词单位的标点符号；

S22：使用成词语素表计算所述分词单位的四类并列词形的出现频率，所述四类并列词形包括短语、词语、语素和语素与词语首字或尾字；

S23：对出现频率大于一的所述四类并列词形，记录其在中文句子中开始的位置及所占的长度并存储到数据结构中，作为所述并列信息侯选；

概念的并列信息候选的生成步骤如下：