[发明专利]一种中文句子中并列信息提取方法及装置有效
申请号: | 201310315217.7 | 申请日: | 2013-07-25 |
公开(公告)号: | CN103440252B | 公开(公告)日: | 2016-11-16 |
发明(设计)人: | 熊文;晋耀红;朱筠 | 申请(专利权)人: | 北京师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 寇海侠 |
地址: | 100875 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种中文句子中并列信息提取方法和装置,采用中文句子为单位的并列信息检测和提取技术,对句中可能存在的并列词形和并列概念在句中的开始位置和所占长度进行计算,以概念类别作为并列信息提取的参照物,并在其上进一步使用并列提取规则,对并列的前后边界进行自动标注和信息提取作为浅层语义分析结果,服务于后续的句子语义分析,并可集成于中英机器翻译系统中。由于句内并列信息是一种浅层语块信息,其包括严格对仗的并列、结构对仗的并列、词语或短语对仗的并列、概念对仗的并列;检测和提取中文句子中的并列信息可降低语义分析的复杂度,可对句子的主要谓语动词的识别进行消歧,在中英机器翻译系统中,可改善和提高译文的翻译效果。 | ||
搜索关键词: | 一种 中文 句子 并列 信息 提取 方法 装置 | ||
【主权项】:
一种中文句子中并列信息提取方法,其特征在于,包括:S1:对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;S2:在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度;S3:加载并列信息标注规则集;S4:从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本;S5:对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出,所述步骤S1中进一步包括:使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;对所述中文句子中的所述分词单位中的数字和英语字母进行合并的如下步骤:合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;合并所述分词单位中的单个且连续的阿拉伯数字和英语字母生成英文专名;合并所述分词单位中的单个且连续的英语字母生成英文专名。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310315217.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种拣货集合单的生成方法、装置及拣货路径优化方法
- 下一篇:电加热水管
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置