[发明专利]一种采用层次管道过滤器体系结构的多语言信息抽取方法有效

申请号：	200810239836.1	申请日：	2008-12-19
公开（公告）号：	CN101751385A	公开（公告）日：	2010-06-23
发明（设计）人：	黄河燕	申请（专利权）人：	华建机器翻译有限公司
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	北京北新智诚知识产权代理有限公司 11100	代理人：	陈曦
地址：	100083 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种采用层次管道过滤器体系结构语言信息抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种采用层次管道过滤器体系结构的多语言信息抽取方法，所述层次管道过滤器体系结构至少包括任务层构件和算法层构件，所述任务层构件由所述算法层构件组成；不同的任务层构件重用同一个算法层构件，不同的算法层构件的公共部分提取出来形成基础构件，由所述基础构件派生其它的算法层构件，各构件之间通过连接件传递数据流；

所述层次管道过滤器体系结构在进行多语言信息抽取时，包括作为任务层构件的多语种自动识别构件、简单命名实体识别构件、语种独立的分词构件、词性标注构件、人名地名识别构件、组织机构名识别构件和最长名词短语识别构件，其特征在于：

(1)对于待处理的语言材料，由所述多语种自动识别构件进行判别；在所述多语种自动识别构件中，首先使用n元语言建模构件在多语种训练语料的基础上，使用期望最大化算法构件进行模型训练，获得多语言的n元语言模型，然后使用训练好的语言模型，用解码构件对评测语料进行解码，用n-gram评测构件对评测语料进行评测；

(2)由所述简单命名实体识别构件识别时间、日期、百分比、金额这四种简单命名实体，由所述人名地名识别构件提取人名和地名；所述人名地名识别构件中，首先基于标注语料采用L-BFGS构件和GIS构件进行模型的训练，获得基于最大熵的语言模型构件的参数；在语言模型的参数基础上，使用Viterbi算法层构件进行解码，然后基于评测语料使用命名实体评测构件进行结果评测；

(3)在步骤(2)的基础上，由语种独立的分词构件进行分词，并由所述词性标注构件进行词性标注；所述语种独立的分词构件中，首先在所述n 元语言建模构件的基础上使用期望最大化算法构件和互信息修剪算法构件，用迭代的方法得到n-multigram语言模型；在n-multigram语言模型的参数基础之上，使用具有主动学习功能的Active Viterbi构件，对评测语料进行解码，最后通过分词评测构件对分词结果进行评测；

(4)由所述组织机构名识别构件进行组织机构名的识别，由所述最长名词短语识别构件进行最长名词短语的识别；所述组织机构名识别构件中，首先由所述L-BFGS构件和所述GIS构件基于标注语料、通过加权置信度的主动学习构件使用未标注语料共同进行模型训练，模型训练的结果得到最大熵的组织机构名语言模型构件；然后用树-栅格最优N解码算法构件对评测语料进行解码，使用组织机构名识别构件进行识别效果的评测；所述最长名词短语识别构件中，首先在标注语料的基础上采用所述L-BFGS构件进行模型的训练，获得基于条件域最长短语语言模型构件的参数；在训练获得的模型的参数基础上，使用受限的前向-后向解码算法层构件进行解码，然后使用最长短语评测构件在评测语料的基础上进行结果评测。

2.如权利要求1所述的采用层次管道过滤器体系结构的多语言信息抽取方法，其特征在于：

所述n-multigram语言模型中，将语言看作是无记忆的信源在状态i 发射一个长度为1的变长词序列，在确定最大长度后，在这一最大长度内作可变长度处理，假定所有的转移概率是相等的，从所有可能的情况中找出子列概率乘积最大的，即最大似然结果。

3.如权利要求1所述的采用层次管道过滤器体系结构的多语言信息抽取方法，其特征在于：

所述词性标注构件由两个独立的算法层构件组合而成，其中一个算法层构件基于隐马尔科夫模型，在标注语料库上完成训练；另一个算法层构件用于调用第三方的词法分析接口完成词性标注。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华建机器翻译有限公司，未经华建机器翻译有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200810239836.1/1.html，转载请声明来源钻瓜专利网。

上一篇：告警分发系统及告警分发控制方法
下一篇：一种PDA计分系统处理断线时输入数据的方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种采用层次管道过滤器体系结构的多语言信息抽取方法有效

专利文献下载