[发明专利]处理用于句法分析的特征模板的方法及装置有效
申请号: | 201410643330.2 | 申请日: | 2014-11-07 |
公开(公告)号: | CN104391836B | 公开(公告)日: | 2017-07-21 |
发明(设计)人: | 吴文权;吴先超;刘占一 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京金律言科知识产权代理事务所(普通合伙)11461 | 代理人: | 罗延红,杨艳云 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 处理 用于 句法 分析 特征 模板 方法 装置 | ||
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种处理用于句法分析的特征模板的方法及装置。
背景技术
依存分析是目前应用最广泛的一种句法分析的方法,两个词之间的句法关系用依存关系表示,如图1所示,为一个句子在句法分析中句子依存关系示例图,如图中所示的句子“天龙八部的男主角是谁”,其中,“是”的主语(SBV)和宾语(VOB)分别为“男主角”和“谁”,“天龙八部”依存于“的”,同时这两个词构成的子句又以修饰语(ATT)的关系依存于“男主角”,“是”是这个句子的核心词(HED),“ROOT”是虚拟节点,表示句法树的根,表示句法树的根,每个句子都会加入这个节点,具体的依存分析方法可以参考现有技术中的内容,在此不再详述。
此外,移近归约是依存分析的一种经典实现方式,采用移近归约依存分析进行句法分析具有精度高速度快的优点,如图2所示,为使用移近归约依存分析的方法分析过程示意图,在图2中的栈用于保存正在分析的词,栈顶表示最近正在分析的词,以图1中所示的句子“天龙八部的男主角是谁”为例,其中“天龙八部”是已经分析完的词,则不出现在栈中,而队列用户保存待分析的词,队顶表示最近待分析的词。在移近归约依存分析方法,每次分析时判断队顶词与栈顶词之间的关系,如果队顶词与栈顶词没有依存关系,则将队顶词压入栈里,如果队顶词依存于栈顶词,则在两个词之间建立关系弧(如图3所示),并直接归约栈顶词(栈顶词出栈),而这种判断队顶词和栈顶词的关系,即是使用特征模板抽取上下文特征进行判断的。
然而,在移近归约依存分析中句子的特征是通过人工设定特征模板集合来采集的,特征模板集合的大小直接决定了最终产生的特征模板。一般地,依存分析的特征筛选是指特征模板的筛选,现有的特征筛选方法采用迭代增加使准确率提升的特征模板方法,都有以下缺点:1)速度慢,判断一个特征模板是否保留需至少一次以上的实验,而一般依存分析系统的特征模板数量都比较多,就需要大量的实验去进行筛选;2)通用性差,在一个语料上筛选出的特征模板无法直接移植到新的语料上。
发明内容
本发明的目的在于,提供一种处理用于句法分析的特征模板的方法及装置,通过从特征模板的集合中删除不影响测试精度的特征模板,自动地进行特征模板的筛选,获得通用性好的特征模板的集合。
根据本发明的一方面,提供一种处理用于句法分析的特征模板的方法,包括:获取第一特征模板的集合,其中,所述第一特征模板的集合包含基本模板和组合模板,每个所述组合模板包含至少两个基本模板;从所述第一特征模板的集合提取至少一个基本模板;分别使用所述至少一个基本模板对训练语料进行解码,并且分别为每个所述基本模板统计从所述训练语料抽取的第一特征值的数量;从所述第一特征模板的集合删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板。
根据本发明的另一方面,提供一种处理用于句法分析的特征模板的装置,包括:第一特征模板集合获取单元,用于获取第一特征模板的集合,其中,所述第一特征模板的集合包含基本模板和组合模板,每个所述组合模板包含至少两个基本模板;基本模板提取单元,用于从所述第一特征模板的集合提取至少一个基本模板;第一特征值统计单元,用于分别使用所述至少一个基本模板对训练语料进行解码,并且分别为每个所述基本模板统计从所述训练语料抽取的第一特征值的数量;第一基本模板删除单元,用于从所述第一特征模板的集合删除仅抽取出单个第一特征值的所述基本模板以及组合模板中包含的所述基本模板。
本发明实施例提供的一种处理用于句法分析的特征模板的方法及装置,通过从特征模板的集合中删除不影响测试精度的特征模板,自动地进行特征模板的筛选,获得通用性好的特征模板的集合。
在此基础上,通过对删除后得到的特征模板进行迭代筛除测试,直到所述特征模板筛除测试所得的测试精度低于所述测试精度阈值为止,从而使得进行迭代筛除测试得到的特征模板的测试精度在测试精度阈值之上,如此,获得通用性好、测试精度高的特征模板的集合,减少筛选成本。
附图说明
图1是示出句法分析中的词与词间依存关系示意图。
图2是示出采用移近归约依存分析的进行句法分析的方法示意图。
图3是示出通过移近归约依存分析后在有依存关系的词之间建立的关系弧示意图。
图4是示出本发明一示例性实施例的一种处理用于句法分析的特征模板的方法流程图。
图5是示出本发明另一示例性实施例的一种处理用于句法分析的特征模板的方法流程图。
图6是示出本发明示例性实施例的特征模板的集合的示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410643330.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多媒体内容的提供方法和装置
- 下一篇:确定短文本相似度的方法和装置