[发明专利]一种采用层次管道过滤器体系结构的多语言信息抽取方法有效
| 申请号: | 200810239836.1 | 申请日: | 2008-12-19 |
| 公开(公告)号: | CN101751385A | 公开(公告)日: | 2010-06-23 |
| 发明(设计)人: | 黄河燕 | 申请(专利权)人: | 华建机器翻译有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京北新智诚知识产权代理有限公司 11100 | 代理人: | 陈曦 |
| 地址: | 100083 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 采用 层次 管道 过滤器 体系结构 语言 信息 抽取 方法 | ||
1.一种采用层次管道过滤器体系结构的多语言信息抽取方法,所述 层次管道过滤器体系结构至少包括任务层构件和算法层构件,所述任务 层构件由所述算法层构件组成;不同的任务层构件重用同一个算法层构 件,不同的算法层构件的公共部分提取出来形成基础构件,由所述基础 构件派生其它的算法层构件,各构件之间通过连接件传递数据流;
所述层次管道过滤器体系结构在进行多语言信息抽取时,包括作为 任务层构件的多语种自动识别构件、简单命名实体识别构件、语种独立 的分词构件、词性标注构件、人名地名识别构件、组织机构名识别构件 和最长名词短语识别构件,其特征在于:
(1)对于待处理的语言材料,由所述多语种自动识别构件进行判别; 在所述多语种自动识别构件中,首先使用n元语言建模构件在多语种训 练语料的基础上,使用期望最大化算法构件进行模型训练,获得多语言 的n元语言模型,然后使用训练好的语言模型,用解码构件对评测语料 进行解码,用n-gram评测构件对评测语料进行评测;
(2)由所述简单命名实体识别构件识别时间、日期、百分比、金额这 四种简单命名实体,由所述人名地名识别构件提取人名和地名;所述人 名地名识别构件中,首先基于标注语料采用L-BFGS构件和GIS构件进 行模型的训练,获得基于最大熵的语言模型构件的参数;在语言模型的 参数基础上,使用Viterbi算法层构件进行解码,然后基于评测语料使用 命名实体评测构件进行结果评测;
(3)在步骤(2)的基础上,由语种独立的分词构件进行分词,并由所述 词性标注构件进行词性标注;所述语种独立的分词构件中,首先在所述n 元语言建模构件的基础上使用期望最大化算法构件和互信息修剪算法构 件,用迭代的方法得到n-multigram语言模型;在n-multigram语言模型 的参数基础之上,使用具有主动学习功能的Active Viterbi构件,对评测 语料进行解码,最后通过分词评测构件对分词结果进行评测;
(4)由所述组织机构名识别构件进行组织机构名的识别,由所述最长 名词短语识别构件进行最长名词短语的识别;所述组织机构名识别构件 中,首先由所述L-BFGS构件和所述GIS构件基于标注语料、通过加权 置信度的主动学习构件使用未标注语料共同进行模型训练,模型训练的 结果得到最大熵的组织机构名语言模型构件;然后用树-栅格最优N解 码算法构件对评测语料进行解码,使用组织机构名识别构件进行识别效 果的评测;所述最长名词短语识别构件中,首先在标注语料的基础上采 用所述L-BFGS构件进行模型的训练,获得基于条件域最长短语语言模型 构件的参数;在训练获得的模型的参数基础上,使用受限的前向-后向 解码算法层构件进行解码,然后使用最长短语评测构件在评测语料的基 础上进行结果评测。
2.如权利要求1所述的采用层次管道过滤器体系结构的多语言信息 抽取方法,其特征在于:
所述n-multigram语言模型中,将语言看作是无记忆的信源在状态i 发射一个长度为1的变长词序列,在确定最大长度后,在这一最大长度内 作可变长度处理,假定所有的转移概率是相等的,从所有可能的情况中 找出子列概率乘积最大的,即最大似然结果。
3.如权利要求1所述的采用层次管道过滤器体系结构的多语言信息 抽取方法,其特征在于:
所述词性标注构件由两个独立的算法层构件组合而成,其中一个算 法层构件基于隐马尔科夫模型,在标注语料库上完成训练;另一个算法 层构件用于调用第三方的词法分析接口完成词性标注。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华建机器翻译有限公司,未经华建机器翻译有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810239836.1/1.html,转载请声明来源钻瓜专利网。





