[发明专利]一种采用层次管道过滤器体系结构的多语言信息抽取方法有效
| 申请号: | 200810239836.1 | 申请日: | 2008-12-19 |
| 公开(公告)号: | CN101751385A | 公开(公告)日: | 2010-06-23 |
| 发明(设计)人: | 黄河燕 | 申请(专利权)人: | 华建机器翻译有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 北京北新智诚知识产权代理有限公司 11100 | 代理人: | 陈曦 |
| 地址: | 100083 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 采用 层次 管道 过滤器 体系结构 语言 信息 抽取 方法 | ||
技术领域
本发明涉及一种实现信息抽取的方法,尤其涉及一种采用层次管道 过滤器体系结构的多语言信息抽取方法,属于自然语言处理(NLP)技术 领域。
背景技术
信息抽取是研究如何从文本中抽取出特定的事实信息并将其以结构 化的形式呈现出来的技术。在自然语言处理(NLP)领域,为了高效率、 高质量地完成信息抽取的任务,需要专门设计和开发信息抽取系统。信 息抽取系统的主要功能是从文本中抽取出特定的事实信息,然后进行结 构化处理,集成在一起,变成统一的组织形式。输入信息抽取系统的是 原始文本,输出的是固定格式的信息点。信息抽取技术标志着快速、准 确的情报分析能力,对一个国家的政治、军事和经济等方面的发展将产 生直接影响,能产生巨大的社会效益和经济效益。
信息抽取系统作为一类结构复杂而子任务众多的软件系统,拥有良 好的软件体系结构(Software Architecture)是十分重要的。一个良结 构的、专门面向信息抽取领域的软件体系结构,有助于提高信息抽取系 统的开发效率和提高系统的可靠性。从软件工程的角度讲,可以提高系 统的可扩展性和可维护性。
目前,在针对特定领域的软件体系结构(DSSA,Domain Specific Software Architecture)中,管道过滤器风格的体系结构以其支持软件 重用的特点,日益受到人们的重视。
管道过滤器风格最早在Unix中出现。它适用于对序列数据进行一系 列已经定义的独立处理的应用程序。如图1所示,这种风格的特点包括:
·构件:层次管道过滤器风格中的构件被称为过滤器(filter)。它 对输入流进行处理、转换,处理后的结果在输出端流出。这种计算常常 是递进的,所以可能在全部的输入接收完之前就开始输出。
·连接件:连接件位于过滤器之间,起信息流导管的作用,被称为管 道(pipe)。
·每个构件都有输入和输出集合,数据流在输出处生成,在输入处被 构件读取。
·过滤器必须是独立的实体,它们不了解信息流从哪个过滤器流出, 也不需要知道将流入哪个过滤器。它们可以指定输入的格式,可以确保 输出的结果,但是它们可能不知道在管道之后将会是什么样的构件。过 滤器之间不共享状态。
·管道和过滤器构成的网络输出的正确性不依赖于过滤器的递进处 理顺序。
但是,目前尚没有在信息抽取系统中采用基于管道过滤器风格的体 系结构的成熟技术方案问世。
发明内容
鉴于目前尚无面向多语言信息抽取的专用软件体系结构,本发明所 要解决的技术问题在于提供一种采用层次管道过滤器体系结构的多语言 信息抽取方法。该方法实现了自适应多语言信息抽取技术与面向特定领 域的软件体系结构的有机结合。
本发明解决上述技术问题所采用的技术方案是:
一种采用层次管道过滤器体系结构的多语言信息抽取方法,所述层 次管道过滤器体系结构至少包括任务层构件和算法层构件,所述任务层 构件由所述算法层构件组成;不同的任务层构件重用同一个算法层构件, 不同的算法层构件的公共部分提取出来形成基础构件,由所述基础构件 派生其它的算法层构件,各构件之间通过连接件传递数据流;
所述层次管道过滤器体系结构在进行多语言信息抽取时,包括作为 任务层构件的多语种自动识别构件、简单命名实体识别构件、语种独立 的分词构件、词性标注构件、人名地名识别构件、组织机构名识别构件 和最长名词短语识别构件,其特征在于:
(1)对于待处理的语言材料,由所述多语种自动识别构件进行判别; 在所述多语种自动识别构件中,首先使用n元语言建模构件在多语种训 练语料的基础上,使用期望最大化算法构件进行模型训练,获得多语言 的n元语言模型,然后使用训练好的语言模型,用解码构件对评测语料 进行解码,用n-gram评测构件对评测语料进行评测;
(2)由所述简单命名实体识别构件识别时间、日期、百分比、金额这 四种简单命名实体,由所述人名地名识别构件提取人名和地名;
(3)在步骤(2)的基础上,由语种独立的分词构件进行分词,由所述词 性标注构件进行词性标注;
(4)由所述组织机构名识别构件进行组织机构名的识别,由所述最长 名词短语识别构件进行最长名词短语的识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华建机器翻译有限公司,未经华建机器翻译有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810239836.1/2.html,转载请声明来源钻瓜专利网。





