[发明专利]针对机器学习的特征处理方法及特征处理系统有效
申请号: | 201610880712.6 | 申请日: | 2016-10-09 |
公开(公告)号: | CN107871166B | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 罗远飞;涂威威 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京博雅睿泉专利代理事务所(特殊普通合伙) 11442 | 代理人: | 马铁良 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 针对 机器 学习 特征 处理 方法 系统 | ||
1.一种针对文本信息的特征处理方法,包括:
(A)获取文本信息数据,对所述文本信息数据进行文本分析以及格式转换处理,得到包含所述文本信息的数据记录,其中,所述数据记录包括至少一个属性信息,获取所述属性信息的连续特征及离散特征;
(B)针对基于所述至少一个属性信息之中的至少一部分属性信息产生的连续特征之中的每一个连续特征,执行基本分箱运算和至少一个附加运算,以产生与所述每一个连续特征对应的基本分箱特征和至少一个附加特征;
(C)产生至少包括所产生的基本分箱特征和至少一个附加特征的机器学习样本,
其中,步骤(C)中产生的机器学习样本被用于基于机器学习模型的预测处理。
2.如权利要求1所述的特征处理方法,其中,所述至少一个附加运算包括以下种类的运算之中的至少一种运算:对数运算、指数运算、绝对值运算、高斯变换运算。
3.如权利要求1或2所述的特征处理方法,其中,所述至少一个附加运算包括与基本分箱运算分箱方式相同但分箱参数不同的附加分箱运算;或者,所述至少一个附加运算包括与基本分箱运算分箱方式不同的附加分箱运算。
4.如权利要求3所述的特征处理方法,其中,分箱方式包括有监督分箱和/或无监督分箱下的分箱方式。
5.如权利要求3所述的特征处理方法,其中,基本分箱运算和附加分箱运算分别对应于不同宽度的等宽分箱运算或不同深度的等深分箱。
6.如权利要求5所述的特征处理方法,其中,所述不同宽度或不同深度在数值上构成等比数列或等差数列。
7.如权利要求3所述的特征处理方法,其中,在步骤(B)中,执行基本分箱运算和/或附加分箱运算,以产生与所述每一个连续特征对应的多维度的基本分箱特征和/或附加分箱特征,其中,每个维度指示对应的箱子中是否被分到了相应的连续特征;或者,每个维度指示对应的箱子中被分到的相应的连续特征的特征值;或者,每个维度指示对应的箱子中被分到的所有连续特征的特征值的平均值;或者,每个维度指示对应的箱子中被分到的所有连续特征的特征值的中间值;或者,每个维度指示对应的箱子中被分到的所有连续特征的特征值的边界值。
8.如权利要求3所述的特征处理方法,其中,在步骤(B)中,执行基本分箱运算和/或附加分箱运算的步骤包括:额外设置离群箱,使得具有离群值的连续特征被分到所述离群箱。
9.如权利要求1所述的特征处理方法,其中,在步骤(C)中产生的机器学习样本还包括基于所述至少一部分属性信息产生的所述连续特征之中的至少一个连续特征。
10.一种针对文本信息的特征处理系统,包括:
文本信息数据获取装置,用于获取文本信息数据,对所述文本信息数据进行文本分析以及格式转换处理,得到包含所述文本信息的数据记录,其中,所述数据记录包括至少一个属性信息,还用于获取所述属性信息的连续特征及离散特征;
特征产生装置,用于针对基于所述至少一个属性信息之中的至少一部分属性信息产生的连续特征之中的每一个连续特征,执行基本分箱运算和至少一个附加运算,以产生与所述每一个连续特征对应的基本分箱特征和至少一个附加特征;
机器学习样本产生装置,用于产生至少包括所产生的基本分箱特征和至少一个附加特征的机器学习样本,
其中,由机器学习样本产生装置产生的机器学习样本被用于基于机器学习模型的预测处理。
11.如权利要求10所述的特征处理系统,其中,所述至少一个附加运算包括以下种类的运算之中的至少一种运算:对数运算、指数运算、绝对值运算、高斯变换运算。
12.如权利要求10或11所述的特征处理系统,其中,所述至少一个附加运算包括与基本分箱运算分箱方式相同但分箱参数不同的附加分箱运算;或者,所述至少一个附加运算包括与基本分箱运算分箱方式不同的附加分箱运算。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610880712.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种飞行汽车及制造方法
- 下一篇:一种工程机械车架悬挂结构