[发明专利]一种基于标点处理的层次化汉语长句句法分析方法及装置有效

专利信息
申请号: 200510086370.2 申请日: 2005-09-08
公开(公告)号: CN1928854A 公开(公告)日: 2007-03-14
发明(设计)人: 宗成庆;李幸 申请(专利权)人: 中国科学院自动化研究所
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 中科专利商标代理有限责任公司 代理人: 段成云
地址: 100080北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及自然语言处理领域,特别是一种新的面向汉语长句的层次化句法分析方法及装置。该方法和传统的不考虑标点符号的一遍分析方法的主要区别在于两个方面:第一,利用部分标点符号的特殊功能将复杂长句分割成子句序列,从而把整句的句法分析分成两级进行。这种“分而治之”的策略大大降低了在传统的一遍分析方法中同时识别子句和短语之间的句法关系以及子句和短语内部的句法关系的困难。第二,从大规模树库中提取包含所有标点符号的语法规则和相应概率分布信息,有利于句法分析和歧义消解。实验证明我们的方法与传统的常用一遍句法分析相比,能够大大减少时间消耗和歧义边的个数,并且提高了复杂长句分析的正确率和召回率约7%。
搜索关键词: 一种 基于 标点 处理 层次 汉语 长句 句法 分析 方法 装置
【主权项】:
1.一种基于标点处理的层次化汉语长句句法分析方法,包括训练过程和分析过程,训练过程包括:a)研究汉语标点符号的用法和句法功能,并将其分类;b)从大规模树库中提取包含标点的概率上下文无关文法规则,并统计得到其概率信息;分析过程包括:aa)将包含分割标点的复杂长句分割;bb)对各个子句单元独立进行第一级句法分析;cc)探测并且合并并列关系的短语;dd)在第一级分析结果的基础上进行第二级分析,最终得到整个句子的完整句法分析树。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200510086370.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top