[发明专利]一种中文句子中并列信息提取方法及装置有效

专利信息
申请号: 201310315217.7 申请日: 2013-07-25
公开(公告)号: CN103440252B 公开(公告)日: 2016-11-16
发明(设计)人: 熊文;晋耀红;朱筠 申请(专利权)人: 北京师范大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京三聚阳光知识产权代理有限公司 11250 代理人: 寇海侠
地址: 100875 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种中文句子中并列信息提取方法和装置,采用中文句子为单位的并列信息检测和提取技术,对句中可能存在的并列词形和并列概念在句中的开始位置和所占长度进行计算,以概念类别作为并列信息提取的参照物,并在其上进一步使用并列提取规则,对并列的前后边界进行自动标注和信息提取作为浅层语义分析结果,服务于后续的句子语义分析,并可集成于中英机器翻译系统中。由于句内并列信息是一种浅层语块信息,其包括严格对仗的并列、结构对仗的并列、词语或短语对仗的并列、概念对仗的并列;检测和提取中文句子中的并列信息可降低语义分析的复杂度,可对句子的主要谓语动词的识别进行消歧,在中英机器翻译系统中,可改善和提高译文的翻译效果。
搜索关键词: 一种 中文 句子 并列 信息 提取 方法 装置
【主权项】:
一种中文句子中并列信息提取方法,其特征在于,包括:S1:对所述中文句子进行处理,得到所述中文句子中的所有分词单位构成的分词单位序列集合;S2:在所述分词单位序列集合中筛选出在所述中文句子中出现频率大于一的构成所述分词单位的短语、词语、语素和概念构成并列信息候选,其中,所述短语是由语法上能够搭配的词组合起来没有句调的语言单位;所述词语是由语素组成的最小的造句单位;所述语素是最小的语音、语义结合体;所述概念指所述分词单位所对应的概念类别;所述并列信息候选包括并列信息的词形或概念类别以及所述并列信息在中文句子中出现的位置和在中文句子中所占的长度;S3:加载并列信息标注规则集;S4:从所述并列信息候选中查找满足所述并列信息标注规则集中的并列信息标注规则的所述并列信息候选并标注在所述分词单位序列集合中,形成带并列信息标记的标注文本;S5:对所述带并列信息标记的标注文本按照标记提取出范围最大的并列信息,得到构成所述中文句子的最终的并列信息并输出,所述步骤S1中进一步包括:使用中文停止词表、分词词表按前向最大长度词语分割,得到所述前向最大长度词语构成的所述分词单位;对所述中文句子中的所述分词单位中的数字和英语字母进行合并的如下步骤:合并所述分词单位中的单个且连续的阿拉伯数字或中文数字生成数词短语;合并所述分词单位中的单个且连续的阿拉伯数字和英语字母生成英文专名;合并所述分词单位中的单个且连续的英语字母生成英文专名。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京师范大学,未经北京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201310315217.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top