[发明专利]结合知识库的深层数据处理方法和系统有效
申请号: | 201310459692.1 | 申请日: | 2013-09-30 |
公开(公告)号: | CN103500208A | 公开(公告)日: | 2014-01-08 |
发明(设计)人: | 郝红卫;孙正雅;梁倩;王桂香 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 宋焰琴 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 知识库 深层 数据处理 方法 系统 | ||
技术领域
本发明涉及自然语言处理和人工智能领域,更具体而言,涉及一种面向文本理解的结合知识库的深层数据处理方法。
背景技术
随着网络信息化的日渐普及,数据正在以前所未有的广度和深度迅猛膨胀,增强从非结构化文本中分析萃取知识的能力变得愈发重要。来自真实世界的文本除了规模庞大,更为重要的挑战就是表示和推理知识的复杂性和不确定性。前者体现在知识的高度异质性,不仅包含关于各个对象的事实和概念,还包含一般的推理规则和本体关系;后者源于知识本身的客观现实和对知识的主观认识水平,而且大量的知识可能是根据似然、统计或者联想而得到的猜测,因此预测是固有不确定的。在传统人工智能框架下,复杂性和不确定性分属于两个独立的研究分支,常用的计算模型分别是基于逻辑规则的分析模型和基于统计随机的概率模型。
分析模型试图把数据之间的依存关系用规则的形式表达出来,然后通过构造推理机制自动地进行数据解码和理解,通常规则的构造需要大量的人工操作,在提高规则完备性的同时,不可避免地要面临规则之间的相互冲突和不一致性,因此该模型只能在极其受限的子问题中获得有限的成功,代表系统包括20世纪70~80年代开发的LUNAR系统、SHRDLU系统、MARGIE系统、SAM系统和PAM系统等,并且大量地用于自然语言分析;概率模型则试图从大量有标签数据资源中自动学习包括依存结构和数值参量在内的各种知识,并且保证在统计意义上具有可解释性,非常适合于求解大规模真实数据,但同时需要足够多有标签样本,否则将面临严重的“数据稀疏”问题,而且从可计算性角度,该模型不能考虑复杂的依存关系,代表系统包括由IBM于1994年开发的统计翻译系统,在完成从法语到英语的翻译任务中取得了实质性进展。
从模型的可表达力和可计算性角度来看,无论是理性的分析模型还是经验的概率模型都不足以解决复杂性和不确定性并存的挑战。作为人工智能领域的新兴研究方向,马尔可夫逻辑结合了两者的优势,旨在建立融合逻辑规则与统计随机的混合模型,被视为数据深度分析的最重要技术手段之一,同时也为文本理解提供了普遍有效的表示和推理框架,代表系统由华盛顿大学于2010年开发的OntoUSP机器阅读系统,与当时最先进系统相比取得了非常明显的性能提升。然而为了使机器的语义认知能力接近人类智能,系统不仅需要获取关于外在世界的广泛知识,还需要运用操作这些知识的能力,包括上下文(语境)的结合能力和背景知识的利用能力。目前在马尔可夫逻辑框架下开发的自然语言系统还不能较好地解决这些需求,首先多层次是大规模知识表示的基本组织结构,但是在生成候选规则的过程中通常只考虑两谓词之间具有共同概念变量的情形,于是忽视了概念之间固有的层次关系以及所描述范围可能存在的重叠和交叉现象,因此在给定规则长度的约束下很容易损失掉大量重要的语义信息进而影响所产生的逻辑规则的质量;其次不确定规则作为知识表示的重要组成部分,其自动获取的规模直接受限于参数学习算法(也就是为逻辑规则赋值合适的权重)的复杂度,尽管原则上两层足以表达任何函数,但是在表达大多数函数时效率却是非常低的,而且已有方法在优化过程中通常需要计算所有候选子句的实例化及其取值情况,将消耗很大的时间和空间开销,因此并不适宜大规模知识的自动处理;再次泛化和激活是知识运用能力的具体体现,然而关于复杂关系的概率推理还没有在实体或者关系层面充分考虑有效的知识泛化,于是难以应对知识不完备比如证据覆盖不全的问题,另外目前的激活策略更多的是依据实例元组及其所在逻辑规则的取值情况,尚未考虑目标元组与实例元组或者逻辑规则的相关度,于是容易产生大量弱关联甚至无关的规则或者元组,从而为不确定推理带来庞大的计算开销,影响语义分析的效率。因此,现有语义分析系统在很多方面仍然存在不足。
发明内容
鉴于以上提出的问题,本发明提出一种面向文本理解的结合知识库的深层数据处理方法和系统,亦称为计算大脑系统,旨在克服现有技术中存在的问题。
具体地,根据本发明的一个方面,提供了一种结合知识库的深层数据处理方法,该方法包括以下步骤:
步骤S1,基于本体库中概念的层次组织结构,对于所述本体库中的概念元组集合进行归并处理,这些元组的谓词包括概念的属性或者概念之间的关系;
步骤S2,基于归并处理后得到的概念元组集合,得到不同类型谓词的链接路径,以及相应的逻辑规则集合;
步骤S3,对所述逻辑规则集合进行初步筛选,获得候选规则集合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310459692.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于浏览器的数据采集分配方法及装置
- 下一篇:远程提醒奶粉盒