[发明专利]一种特征信息识别方法及系统有效
申请号: | 201910132261.1 | 申请日: | 2019-02-22 |
公开(公告)号: | CN109858633B | 公开(公告)日: | 2021-02-02 |
发明(设计)人: | 郭振宇;黄炳;刘华杰;姜璐 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王涛;任默闻 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 特征 信息 识别 方法 系统 | ||
本发明提供了一种特征信息识别方法及系统,包括:获取待预测数据组的第一唯一标识对应的离散数据单元及连续数据单元;将第一唯一标识对应的离散数据单元输入预设的离散模型计算生成预设的离散模型对应的第一预测值;第一预测值包括:第一唯一标识;将第一唯一标识对应的连续数据单元及第一预测值合并后输入预设的连续模型计算生成预设的连续模型对应的第二预测值;第二预测值包括:第一唯一标识;根据第一唯一标识对应的待预测数据组及第二预测值生成待预测数据组对应的特征信息。本申请能够提高机器学习算法对既包含离散型数据又包含连续型数据的数据处理效率,从而提高应用该机器学习算法进行特征信息识别的效率。
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及一种特征信息识别方法及系统。
背景技术
目前,在机器学习领域,有两类主要的机器学习算法:适用于离散型数据的算法和适用于连续型数据的算法,这两类算法存在缺陷如下:
1、适用于离散型数据的机器学习算法(如:逻辑回归),存在缺陷为:需要预先对样本数据中的连续性数据进行离散化(样本数据中有时会既包含有离散型数据,也包含连续型数据),但是离散算法(包括:分桶、分段、LOG处理等)的选择会影响最终的评估结果。适用于离散型数据的机器学习算法处理过程复杂,选择离散化算法过程中,需要经过多次试验,才能评估得到较优的离散化算法。
2、适用于连续型数据的机器学习算法(如:GBDT算法),存在缺陷为:在模型训练或预测过程中,GBDT的决策树需要将离散型数据进行逻辑上的“是与非”处理。当离散型数据的类型(如职业类型有教师、医生、工程师、农民、工人、导演、演员等)非常多的时候,会导致GBDT决策树变得非常庞大,将大大降低了适用于连续型数据的机器学习算法的处理效率。
因此,对于既包含离散型数据又包含连续型数据的数据,现有的机器学习算法的处理过程复杂并且效率较低,会导致应用该机器学习算法进行特征信息识别效率低的问题。
发明内容
为了解决现有技术中的缺陷,本发明提供了一种特征信息识别方法及系统,能够有效提高应用机器学习算法进行特征信息识别的效率。
为了实现上述目的,本发明提供了一种特征信息识别方法,该方法包括:
获取待预测数据组的第一唯一标识对应的离散数据单元及连续数据单元;
将所述第一唯一标识对应的离散数据单元输入预设的离散模型计算生成所述预设的离散模型对应的第一预测值;所述第一预测值包括:所述第一唯一标识;
将所述第一唯一标识对应的连续数据单元及所述第一预测值合并后输入预设的连续模型计算生成所述预设的连续模型对应的第二预测值;所述第二预测值包括:所述第一唯一标识;
根据所述第一唯一标识对应的待预测数据组及所述第二预测值生成所述待预测数据组对应的特征信息。
本发明还提供了一种特征信息识别系统,该系统包括:
获取单元,用于获取待预测数据组的第一唯一标识对应的离散数据单元及连续数据单元;
第一生成单元,用于将所述第一唯一标识对应的离散数据单元输入预设的离散模型计算生成所述预设的离散模型对应的第一预测值;所述第一预测值包括:所述第一唯一标识;
第二生成单元,用于将所述第一唯一标识对应的连续数据单元及所述第一预测值合并后输入预设的连续模型计算生成所述预设的连续模型对应的第二预测值;所述第二预测值包括:所述第一唯一标识;
第三生成单元,用于根据所述第一唯一标识对应的待预测数据组及所述第二预测值生成所述待预测数据组对应的特征信息。
本发明还提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的特征信息识别方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910132261.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种确定阈值的方法及装置
- 下一篇:一种户外多媒体广告牌监管系统
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置