[发明专利]信息提取模型训练装置、信息提取装置和信息提取系统及其方法有效

专利信息
申请号: 200710306622.7 申请日: 2007-12-28
公开(公告)号: CN101470699A 公开(公告)日: 2009-07-01
发明(设计)人: 吴根清;靳简明 申请(专利权)人: 日电(中国)有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30;G06F15/18
代理公司: 中科专利商标代理有限责任公司 代理人: 罗松梅
地址: 100007北京市东城区东四十*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 信息 提取 模型 训练 装置 系统 及其 方法
【说明书】:

技术领域

发明涉及自然语言处理的技术领域,更具体地,涉及一种信息 提取模型训练装置及其方法、一种信息提取装置及其方法、一种包括 信息提取模型训练装置和信息提取装置的信息提取系统及其方法。

背景技术

信息提取是一种信息检索方式,目的在于从非结构的机器可读文件 中提取结构化或半结构化的信息。信息提取的重要性取决于非结构形 式的可利用信息的增长量,例如,因特网上的成千上万的网页决定了 信息提取技术的重要性。然而,从海量的语料中手工提取信息即费时 又不实际可行。

例如,由于商业原因,一个商务管理者想从新闻中收集其公司的竞 争者的所有供货商。以手工方式实现的信息提取步骤如下:首先,创 建竞争者列表;第二,下载由搜索引擎搜索到的与列表中的公司有关 的新闻;第三,认真的读取每一条新闻,以找到是否涉及任意一个竞 争者的供货商。上述的每一步骤都是非常耗费人力和耗费时间的,因 此,能够从非结构化文件中提取预定信息的方法将是非常有用的。

通常,信息提取的结构可以划分为两种方法,手工结构和基于机 器学习的结构。

手工的结构化信息提取系统通常由专家来构造。该结构化系统的 精确率和效率较好。但是,所采用的规则必须由特定领域的专家构造, 以及针对该特定领域构造的结构处理并不一定适用于其它领域。

基于机器学习的系统是由各种机器学习技术构造的,例如,符号 学习,归纳逻辑规划,分装器归纳,统计方法以及语法归纳。从带标 签的数据中学习该系统的规则或模型。对于所有的信息提取系统来说, 该学习过程相同,但是学习的数据通常是由不同的人出于不同的目的 来标记的。

申请US2006161531提供了一种从以半结构化或非结构化格式写 入的数据集(例如,自然语言文本)中提取与预定上下文有关的信息 的方法和系统。与预定上下文有关的该信息按照预定的结构设置存储 在信息存储器中。此外,将提取的信息中的各个数据值依据其与预定 上下文的属性的相关性分配权重。向结构化信息分配权重的操作提供 了用于比较多个结构化设置的信息与预定的上下文的属性的相关性的 方法。

申请JP2006244262提出了一种系统,用于以高精确率检索对问 句的示例应答句子。会话单元候选生成装置执行形态学分析以及问句 的文法分析以生成会话单元中的候选实例。会话单元提取装置将存储 在存储装置中的会话单元提取规则应用于会话单元中的候选实例,并 从问句中提取会话单元。示例数据寄存器装置将从问句示例中提取的 多个会话单元以及问句和应答句子寄存在存储装置中。示例问题应答 句子数据检索装置为每一个新的问句的每一个特定会话单元检索具有 与来自存储装置的特定会话单元相同的会话类型的特定会话单元的示 例问题应答句子。相互问句比较装置根据句子之间的相似度来确定检 索的示例问题应答句子的问句和新的问句是否是与类似内容有关的问 句。

发明内容

为了解决现有技术中存在的上述问题,提出了本发明。从而能够 精确地训练信息提取模型,以及可以以很高的效率和较高的精确度从 海量语料中提取预定信息。

根据本发明第一方面,提出了一种信息提取模型训练装置,包括:

IES模型训练单元,用于利用语料来生成IES模型训练集和MRE规 则训练集,并根据IES模型训练集和MRE规则训练集生成训练后的IES 模型;以及

MRE规则训练单元,用于利用语料和MRE规则训练集生成训练后 的MRE规则库。

根据本发明第二方面,提出了一种信息提取模型训练装置,包括:

MRE规则训练单元,用于利用语料来生成第一IEA模型训练集; 以及

IEA模型训练单元,用于利用语料来生成第二IEA模型训练集以及 第一MRE规则训练集,并根据第一和第二IEA模型训练集以及第一 MRE训练集生成训练后的IEA模型;

其中,MRE规则训练单元根据第一MRE规则训练集生成训练后的 MRE模型。

根据本发明的第三方面,提出了一种信息提取模型训练装置,包 括:

IES模型训练单元,用于利用语料来生成IES模型训练集和第一 MRE规则训练集;以及

MRE规则训练单元,用于利用语料和MRE规则训练集生成第一 IEA模型训练集;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日电(中国)有限公司,未经日电(中国)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710306622.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top