[发明专利]集成知识和自然语言处理的机器学习有效
申请号: | 201880086008.0 | 申请日: | 2018-12-31 |
公开(公告)号: | CN111566654B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | D·巴卡雷拉;J·巴尼比;N·劳伦斯;S·帕特尔 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F40/40 | 分类号: | G06F40/40;G06F16/36;G06N20/00 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 姚杰 |
地址: | 美国纽*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集成 知识 自然语言 处理 机器 学习 | ||
提供了一种系统、计算机程序产品和方法,用于自动化基于数据的持续性的知识图的框架,并且解决知识图中的时间变化和不确定性。自然语言理解与一个或多个机器学习模型(MLM)一起用于从非结构化信息提取数据,非结构化信息包括实体和实体关系。将所提取的数据填充到知识图中。随着KG经历改变,KG被用于创建新的并重新训练现有的机器学习模型(MLM)。以真实值的形式对填充的数据进行加权。区块链技术被应用于填充的数据以确保数据的可靠性并提供可审计性以评估对数据的改变。
背景技术
本发明涉及自然语言处理,并且更具体地涉及用于集成知识和自然语言处理的机器学习。
在人工智能计算机系统领域中,自然语言系统(例如IBM WatsonTM人工智能计算机系统和其它自然语言问答系统)基于系统所获得的知识来处理自然语言。为了处理自然语言,可以用从数据库或知识库中得到的数据来训练系统,但是由于与语言结构和人为推理的特性、或者不正确的新训练数据有关的各种原因,结果可能是不正确的或不准确的。
机器学习是人工智能(AI)的子集,其利用算法来从数据学习并基于该数据创建前瞻。AI是指机器基于信息能够做出决策时的智能,其最大化了在给定主题中成功的机会。更具体地说,AI能够从数据集学习以解决问题并提供相关的推荐。AI是认知计算的子集,其是指规模学习、有目的推断、并且自然地与人类交互的系统。认知计算是计算机科学和认知科学的混合。认知计算利用使用数据最小化、视觉识别和自然语言处理的自学算法来解决问题并优化人类过程。
认知系统固有地是非确定性的。具体地,从认知系统输出的数据易受所提供的信息的影响并被用作输入。例如,当部署新的机器学习模型时,不保证系统将提取与先前所做的相同的实体。新模型可能不利地影响先前的模型结果。类似地,通过文档引入的错误可能导致提取不正确的数据并提供不正确的数据作为输出。因此,需要在认知系统中创建确定性行为。
发明内容
实施例包括针对用于认知系统的确定性数据的自然语言处理的系统、计算机程序产品和方法。
在一个方面,提供了一种系统,其具有可操作地耦合到存储器的处理单元,其中人工智能平台与处理单元和存储器通信。提供与处理单元通信的知识引擎来管理数据。更具体地,知识引擎从结构化和/或非结构化数据中提取数据和数据关系。知识引擎在知识图中为所提取的数据和数据关系创建条目,并且在知识图中选择性地存储数据和数据关系,包括向存储的数据分配真实性值。此外,在对应于知识图或以其他方式与知识图相关联的对应区块链(BC)分类账中创建资产价值条目。资产价值条目包括分配的真实性值。创建对应于BC分类账条目的BC标识符,并且BC标识符与知识图条目一起存储。根据知识图条目和相应的BC分类账条目,KG中的选择数据可以被知识引擎用来支持评估。更具体地说,该评估支持对选择数据的起源的确定,并且另外支持对该数据进行量化。知识引擎基于所分配的真实性值生成被评估数据的列表,包括列表中的数据的排序。从排序列表返回数据元素,在一个实施例中,该数据元素是在列表中的数据元素条目中具有最强的真实性评分的数据元素。
在另一方面,提供了一种处理自然语言的计算机程序产品。该计算机程序产品包括计算机可读存储设备,该计算机可读存储设备具有可由处理单元执行的具体化的程序代码。提供程序代码以将数据存储在知识图中。这包括用于从结构化和/或非结构化数据提取数据和数据关系的程序代码,用于在知识图中创建条目的程序代码,其中条目包括所提取的数据和数据关系的选择性存储以及向存储的数据分配真实性值,用于在BC分类账中创建对应于知识图的资产价值条目的程序代码,其中条目包括所分配的真实性值,用于创建对应于BC分类账条目的BC标识符的程序代码,以及用于将所创建的BC标识符与知识图条目一起存储的程序代码。此外,提供程序代码以支持对存储的数据的评估。具体地,提供程序代码以评估存储在知识图中的选择数据,其包括使用BC标识符来确定选择数据的起源并量化数据的程序代码。还提供了用于生成评估的数据的列表并基于相应的真实性值来对列表中的数据进行排序的程序代码。以在排序列表中具有最强表示的真实性评分的数据元素的形式从列表中生成结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880086008.0/2.html,转载请声明来源钻瓜专利网。