[发明专利]一种数据处理方法及数据处理装置在审
申请号: | 202111453147.2 | 申请日: | 2021-11-30 |
公开(公告)号: | CN116205306A | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 沈雯;乔楠;张雷;陶建军 | 申请(专利权)人: | 华为云计算技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N5/02;G06N3/08;G16H50/20;G16H50/70;G06F16/36 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 石翰林 |
地址: | 550025 贵州省贵阳市*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
本申请实施例公开了一种数据处理方法以及数据处理装置,用于提升AI任务模型的预测准确率。本申请实施例方法包括:获取多种数据,多种数据中的各种数据具有不同的来源和不同的数据类型。对多种数据进行知识抽取,获得知识图谱,知识图谱包括多个知识实体以及多个知识实体之间的关联关系,多个知识实体包括不同的数据类型。利用与每个知识实体的数据类型对应的知识表征算法对每个知识实体进行知识表征,且对知识图谱中多个知识实体之间的关系进行权重的初始化,获得向量图,向量图用于训练人工智能AI任务模型。
技术领域
本申请实施例涉及人工智能领域,尤其涉及一种数据处理方法及数据处理装置。
背景技术
近年来,人工智能(artificial intelligence,AI)的相关技术在各行各业得到了越来越广泛的应用。其中,深度学习技术是一种基于深层神经网络的算法的AI技术,通过模拟人脑的工作机制来进行数据的处理。目前,常采用AI模型(例如:深度学习模型)来完成各种应用场景的任务,AI模型也可以称为AI任务模型。
目前的AI技术中,AI模型需要大量的样本数据进行训练,目前的一些技术方案常常仅采用数据类型较为单一的样本数据对AI模型进行训练。例如,AI技术应用在医疗领域的临床决策支持系统(clinical decision support system,CDSS)中时,CDSS中基于深度学习的疾病诊断模型训练的所需的样本数据的来源往往仅采用电子病历,样本数据的类型是电子病历中的文本。由于样本数据来源和类型单一,导致疾病诊断模型的预测准确率低,辅助临床决策效果差。
在一些场景中,用于AI模型训练的样本数据可以采用具有不同的数据来源和不同的数据类型。然而,目前样本数据用于AI模型的训练时,由于对于不同来源和不同数据类型的样本数据不能进行较好的表征,使得在训练AI模型的过程中,AI模型不能学习到样本数据中的特征,从而导致训练得到的AI任务模型的任务预测准确率低。
因此,如何对来自不同来源和不同数据类型的样本数据进行表征,使得采用经过表征后的数据训练得到的AI任务模型提高任务的预测准确率,是当前急需解决的技术问题。
发明内容
本申请实施例提供了一种数据处理方法以及数据处理装置,用于提升AI任务模型的预测准确率。
本申请实施例第一方面提供了一种数据处理的方法。该方法由计算机设备执行,也可以由计算机设备的部件,例如计算机设备的处理器、芯片或芯片系统等执行,还可以由能实现全部或部分设备功能的逻辑模块或软件实现。以计算机设备为例,该数据处理方法包括:计算机设备获取多种数据,多种数据中具有不同的数据来源和不同的数据类型,数据的来源与所要训练的任务类型相关,包括人产生的数据或机器产生的数据,数据的类型包括文本、数值或图像。计算机设备对多种数据进行知识抽取获得知识图谱,知识图谱包括多个知识实体以及多个知识实体之间的关联关系,知识实体包括多种数据中提取出的关键要素,多个知识实体包括不同的数据类型。计算机设备利用与每个知识实体的数据类型对应的知识表征算法对每个知识实体进行知识表征,且对知识图谱中多个知识实体之间的关系进行权重的初始化,获得向量图,向量图用于训练人工智能AI任务模型。
本申请实施例中计算机设备用于训练AI任务模型的样本数据为多种来源和多种类型的数据,同时,计算机设备通过不同数据类型所对应的知识表征算法将抽象的知识图谱表征为计算机设备可识别的向量图。计算机设备基于多种来源和多种类型的数据所获得的向量图对AI任务模型进行训练,提升了AI任务模型的预测准确性。
一种可能的实施方式中,计算机设备对多种数据进行知识抽取获得知识图谱的过程中,计算机设备基于不同的知识层面对多种数据进行知识抽取,从而获得多知识层面的知识图谱。例如,计算机设备对多种医疗数据进行知识抽取获得治疗领域的知识图谱时,可以根据表征症状层面、基因层面或微生物层面等多个知识层面进行知识抽取,从而获得具备多个知识层面关联的知识图谱。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为云计算技术有限公司,未经华为云计算技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111453147.2/2.html,转载请声明来源钻瓜专利网。