[发明专利]从非结构化文本提取和显现图表结构化关系的方法和系统有效
申请号: | 200680041525.3 | 申请日: | 2006-09-18 |
公开(公告)号: | CN101305366A | 公开(公告)日: | 2008-11-12 |
发明(设计)人: | H·哈桑;H·莫索塔费 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市金杜律师事务所 | 代理人: | 朱海波 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结构 文本 提取 显现 图表 关系 方法 系统 | ||
技术领域
本发明涉及数据处理,更特别地,涉及一种用于从非结构化文本自动提取和显现表示出关系的图表结构化数据的方法、系统和计算机程序。
背景技术
技术领域
结构化信息可以定义为其预期意义以数据的结构或格式明显地表示的信息。结构化信息的典型例子是关系数据库。非结构化信息可以表征为其意义需要解释以接近和提取预期意义的信息。例子包括自然语言文档、语音、音频、图像和视频。换言之,非结构化数据是无组织地驻留于数据库外部的任何数据。非结构化数据可以是文本、音频、视频或图形。
非结构化信息代表可用于商界或政府的最大、最流行和最快发展的信息源。在一些估计中,非结构化数据代表所有共同信息中的80%。在这些大量数据中的高价值信息是难以发现的。非结构化信息不是适于搜索技术的格式。在非结构化源中搜索信息是不实际的。首先,必须分析数据以检测和定位所关心的项。然后必须将结果结构化为使得强大的搜索引擎和数据库引擎可以在内容被请求时有效地找到所请求的内容。从非结构化世界到结构化世界的桥梁称为信息提取(IE)。
非结构化信息管理(UIM)应用通常是软件系统,其分析大量非结构化信息(文本、音频、视频、图像等)以发现、组织和传递相关知识到客户端或终端用户。一个例子是处理数百万医学文档和报告以发现药物间关键相互作用、副作用和疾病史的应用。另一例子 是处理数百万文档以发现表明可能的恐怖分子威胁的关键证据的应用。
非结构化数据的管理被认为是信息技术(IT)产业中主要未解决问题之一,主要原因是可以成功地将结构化数据转换为商业情报和可用信息的工具和技术当应用于非结构化数据时完全不起作用。
非结构化信息管理(UIM)系统对大量非结构化信息使用信息提取(IE)技术以发现、组织和传递相关知识到客户端。
信息提取(IE)是自然语言处理(NLP)的重要未解决问题。信息提取中最重要的问题之一是从文本文档中提取实体以及提取这些实体间的关系。实体的例子是“民族”、“组织”和“位置”。关系的例子是“组织-雇用-执行官”、“组织-位置”等。例如,句子“John Adams是XYZ公司的首席执行官”包括个人“John Adams”和组织“XYZ公司”之间的“组织-雇用-执行官”关系。
已经使用各种技术来提取相关实体间的关系。
·在监督方法中,在给出的例子中人力专家人工地识别实体和关系。针对这些例子训练分类器,该分类器用于在以后运行时识别关系和实体。
·半监督方法使用由专家提供的种子样本并设法自动获得类似于种子样本的更多样本。然后,种子样本和所获得的样本被用于训练类似于监督情况中的分类器。
非结构化数据包括不同于实体和关系的其他信息,例如表示不同实体间的关系的社交网络,其间实体具有某些关系的周期,不同实体间共享的公共因素,…该复杂和丰富的信息难以获取并且非常难以用信息化方式表示。
HITS(“超文本引导主题选择”)算法是用于对网页进行分级并因此还进行排序的算法。HITS对每个页面使用两个值,“权威值”和“中心值”。“权威值”和“中心值”在相互递归中相互定义。权威值计算为指向该页面的定标中心值的和。中心值是其指向的页面的定标权威值的和。在一些实现中也考虑了所链接页面的关联性。 HITS算法得益于以下研究:当页面(中心)链接到另一页面(权威)时,前者对后者给予授权。HITS方法在J Kleinberg,J.ACM(1999)的标题为“Authoritative Sources in a Hyperlinked Environment”(超链接环境中的权威源)的出版物中描述。
初始问题
对于一些领域,从非结构化数据提取知识是昂贵且不可行的任务,因为需要生成很多手工规则以捕获各种信息。尽管对于任何给定领域提取这种知识都是非常困难的操作,但以清楚和有用的方式向用户呈现和显现数据是更困难的。本发明处理三个主要问题:
·用于在任何领域(应用)中从任何非结构化数据提取实体间关系的图案的自动发现
·从非结构化数据提取表征每个实体和关系的知识(例如其间关系有效的时间以及在该时间该实体的位置)。
·多层关系的定义(具有各种约束和条件的关系,例如在给定时间帧中的关系或者在给定组织中两个人之间的关系,…)
·所提取知识的显现(以使用户能够吸收和消化该知识的方式呈现所提取知识)。
现有技术
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200680041525.3/2.html,转载请声明来源钻瓜专利网。