[发明专利]一种数据处理方法、装置、计算机设备及存储介质在审
申请号: | 202011261127.0 | 申请日: | 2020-11-12 |
公开(公告)号: | CN112231347A | 公开(公告)日: | 2021-01-15 |
发明(设计)人: | 杨洁;陈绍毅;廖梦;徐进;王志平 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/2457 | 分类号: | G06F16/2457;G06F16/735;G06N3/04;G06N20/20 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 熊永强;杜维 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 计算机 设备 存储 介质 | ||
本申请实施例公开了一种数据处理方法、装置、计算机设备及存储介质,该方法包括:获取用于将搜索业务数据和待匹配业务数据进行匹配的多模态匹配模型;通过文本特征学习器,对搜索业务数据的第一特征提取向量和第一模态业务数据的第二特征提取向量进行第一学习处理,得到第一学习结果;通过多模态特征学习器,对第一特征提取向量和第二模态业务数据的第三特征提取向量进行第二学习处理,得到第二学习结果;通过预测生成器将第一学习结果中的学习向量与第二学习结果中的学习向量进行拼接处理,得到向量拼接结果;向量拼接结果用于指示对搜索业务数据和待匹配业务数据之间的匹配度进行预测。采用本申请实施例,可以提高预测结果的准确性。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、计算机设备及存储介质。
背景技术
目前在业务搜索场景中,用户可以在应用客户端中录入自己感兴趣的业务数据(例如,文本数据a),此时,计算机设备往往会通过文本匹配的方式为该用户搜索与该文本数据a具备较高文本匹配度的目标匹配数据(例如,业务数据b)。可以理解的是,计算机设备在对文本数据a与业务数据b进行匹配的过程中,需要确定该文本数据a的特征向量1,以及业务数据b中的文本(例如,标题文本)的特征向量2,进而可以通过确定特征向量1和特征向量2之间的相似距离,来确定文本数据a和业务数据b之间的相似度。
由此可见,现有的文本匹配方式,需要从业务数据b中提取标题文本的特征向量,并直接将该标题文本的特征向量作为用于表征整个业务数据b的特征向量,因此,在进行单一地文本匹配的过程中,会导致最终搜索到的目标匹配数据的存在较大误差,从而降低了预测结果的准确性。
发明内容
本申请实施例提供一种数据处理方法、装置、计算机设备及存储介质,可以提高预测结果的准确性。
本申请实施例一方面提供一种数据处理方法,包括:
获取用于将搜索业务数据和待匹配业务数据进行匹配的多模态匹配模型;多模态匹配模型包括特征学习器以及预测生成器;待匹配业务数据中包括第一模态业务数据和第二模态业务数据;
通过特征学习器中的文本特征学习器,对搜索业务数据的第一特征提取向量和第一模态业务数据的第二特征提取向量进行第一学习处理,得到第一学习结果;第一学习结果中的学习向量是由文本全局信息向量和文本局部细粒度向量所得到的;文本全局信息向量是基于文本特征学习器的第一全局特征学习层中的第一多尺度卷积核所得到的;文本局部细粒度向量是基于文本特征学习器的第一局部特征学习层所得到的;
通过特征学习器中的多模态特征学习器,对第一特征提取向量和第二模态业务数据的第三特征提取向量进行第二学习处理,得到第二学习结果;第二学习结果中的学习向量是由多模态全局信息向量和多模态局部细粒度向量所得到的;多模态全局信息向量是基于多模态特征学习器的第二全局特征学习层中的第二多尺度卷积核所得到的;多模态局部细粒度向量是基于多模态特征学习器的第二局部特征学习层所得到的;
通过预测生成器将第一学习结果中的学习向量与第二学习结果中的学习向量进行拼接处理,得到向量拼接结果;向量拼接结果用于指示对搜索业务数据和待匹配业务数据之间的匹配度进行预测。
本申请实施例一方面提供一种数据处理方法,包括:
获取用于训练多模态训练模型的样本数据组;样本数据组包括第一类型样本数据组以及第二类型样本数据组;第一类型样本数据组为具有样本标签信息的样本数据组;第二类型样本数据组为不具有样本标签信息的样本数据组;样本标签信息用于指示第一类型样本数据组之间的匹配度;
将样本数据组输入至多模态训练模型,由多模态训练模型输出样本数据组之间的预测结果,将预测结果作为预测标签信息;多模态训练模型包括样本特征提取器、样本特征学习器以及样本预测生成器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011261127.0/2.html,转载请声明来源钻瓜专利网。