[发明专利]多标记业务处理的方法及装置有效

专利信息
申请号: 201911421935.6 申请日: 2019-12-31
公开(公告)号: CN111177507B 公开(公告)日: 2023-06-23
发明(设计)人: 方军鹏;唐才智 申请(专利权)人: 支付宝(杭州)信息技术有限公司
主分类号: G06F16/906 分类号: G06F16/906;G06Q30/016;G06Q30/0601
代理公司: 北京亿腾知识产权代理事务所(普通合伙) 11309 代理人: 陈霁;周良玉
地址: 310000 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 标记 业务 处理 方法 装置
【说明书】:

本说明书实施例提供了针对业务模型新型数据预处理的方法,可以从多标记的训练样本中筛选出二分类的业务模型相关的初始样本,并利用针对多个类别提取的初始特征对这些初始样本进行特征重构,充分挖掘特征与特征之间、特征与属性类别之间的相关性,从而选择出针对当前二分类模型而言,更加准确的基准特征。当重构的基准特征和正/负样本本来的类别标签组合构成新的样本时,可以训练出更加有效的二分类的业务模型。进一步地,在进行多标记业务处理过程中,可以对业务数据同一提取初始特征,保持了特征的一致性,再由各个二分类的业务模型对初始特征进行转换,从而提供更有效的多标记业务处理结果。

技术领域

本说明书一个或多个实施例涉及计算机技术领域,尤其涉及对业务模型进行数据预处理以重构特征空间、使用重构特征构建样本训练业务模型,以及通过所训练的多个业务模型联合确定业务数据对应的目标类别的方法及装置。

背景技术

在机器学习领域,多标记业务是广泛涉及的业务。例如在零售,图像,文本翻译,医疗保健,科学等等场景下,都可能涉及多标记问题。在多标记场景中,一条业务数据可能对应多个标记(也可以称之为类别),例如客服场景中,用户提出的非标准化问题,对应多个可能的标准问题,可能的多个标准问题可以作为选项反馈给用户,有助于智能客服与用户的有效沟通。这里,用户提出的非标准化问题作为一条业务数据,可能对应的多个标准问题可以作为对应的多个标记(类别),就是一个多标记业务场景。常规技术中,多标记业务往往可以被转化成多个二分类问题,或者简单的进行排序以阈值截断的方式确定目标类别。然而,这种方式没有充分考虑标记之间的相关性信息。因此,需要一种方案,能够更深层次地利用样本特征信息,来进行更有效的多标记业务。

发明内容

本说明书一个或多个实施例描述的针对业务模型进行数据预处理的方法及装置,以及训练各个业务模型、通过所训练的多个业务模型进行多标记业务处理的方法和装置,可以用于解决背景技术部分提到的一个或多个问题。

根据第一方面,提供了一种针对业务模型进行数据预处理的方法,所述业务模型用于在进行多标记业务处理过程中,针对业务数据在预定的多个类别中的第一类别和第二类别上进行二分类,所述多个类别包含至少三个类别,初始样本集中包括第一数量的初始正样本和第二数量的初始负样本,其中,所述初始样本集中的单个初始样本对应有通过相应业务数据提取的多个初始特征,以及所述多个类别中的至少一个类别标签,所述初始正样本是对应有所述第一类别标签且不对应所述第二类别标签的初始样本,所述初始负样本是对应有所述第二类别标签且不对应所述第一类别标签的初始样本;

所述方法包括:

从所述第一数量的初始正样本或所述第二数量的初始负样本中获取第一初始样本;

针对所述初始样本集中的各个初始样本,分别确定各个初始样本与所述第一初始样本之间的各个相对距离;

根据各个相对距离,检测所述第一候选特征对所述第一数量的初始正样本和第二数量的初始负样本之间的区分性;

基于检测结果,确定是否将所述第一初始样本作为针对所述业务模型重构的特征空间中的基准特征,所述基准特征用于将业务数据映射到所述特征空间中,从而进行业务分类处理。

在一个实施例中,所述单个初始样本与所述第一初始样本之间的相对距离为,所述多个初始特征维度下的欧氏距离。

在一个实施例中,所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本之间的区分性通过第一区分指标进行衡量,所述第一区分指标用于量化描述所述第一初始样本对所述第一数量的初始正样本和第二数量的初始负样本的区分程度。

在一个实施例中,所述第一区分指标为,第一数量的初始正样本和第二数量的初始负样本的类间距离与类内距离的比值,其中:所述类间距离为,所述第一数量的初始正样本对应的各个相对距离的平均值,与所述第二数量的初始负样本对应的各个相对距离的平均值之差;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911421935.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top