[发明专利]训练样本构建方法、装置、终端设备及存储介质在审
申请号: | 202011217114.3 | 申请日: | 2020-11-04 |
公开(公告)号: | CN112328779A | 公开(公告)日: | 2021-02-05 |
发明(设计)人: | 老焯楠 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 李木燕 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练 样本 构建 方法 装置 终端设备 存储 介质 | ||
本申请适用于人工智能技术领域,提供了一种训练样本构建方法、装置、终端设备及存储介质,该方法包括:根据不同用户账户的文章分享数据对用户进行筛选得到样本用户;根据样本用户对应的文章分享数据构建分享序列特征;根据分享序列特征构建对应于样本用户的标签序列特征;根据分享序列特征和标签序列特征进行样本构建得到训练样本。本申请通过根据分享序列特征和标签序列特征进行样本构建,能基于样本用户分享的不同文章之间和不同文章对应标签之间分享顺序的特征进行训练样本的构建。也即,当预估模型基于上述训练样本训练后,能准确的预估到用户的文章分享行为,提高了预估模型对用户文章分享行为预估的准确性。此外,本申请还涉及区块链技术。
技术领域
本申请涉及人工智能领域,尤其涉及一种训练样本构建方法、装置、终端设备及存储介质。
背景技术
在推荐算法中,CTR(Click-Through-Rate)预估模型无疑是使用最为广泛的排序模型方案。而预估模型训练所用的训练样本则是整个算法的关键所在,在推荐算法中,70%以上的精力和时间是消耗在训练样本的构建上,训练样本质量的好坏将直接影响预估模型的最终效果,因此,训练样本的构建方法越来越受人们所重视。
现有的训练样本构建过程中,均是对用户的点击数据和文章的曝光数据进行特征的提取,并根据提取到的点击特征和曝光特征进行训练样本的构建,使得训练后的预估模型能预估到用户的点击行为,但训练后的预估模型并不能有效的对用户的文章分享行为进行预估,使得训练后的预估模型对用户的文章分享行为预估准确性低下,降低了用户的使用体验。
发明内容
有鉴于此,本申请实施例提供了一种训练样本构建方法、装置、终端设备及存储介质,以解决现有技术的训练样本构建过程中,由于根据提取到的点击特征和曝光特征进行训练样本构建,所导致的训练后的预估模型对用户的文章分享行为预估准确性低下的问题。
本申请实施例的第一方面提供了一种训练样本构建方法,包括:
获取不同用户账户的文章分享数据,并根据所述文章分享数据对用户进行筛选,得到样本用户,所述文章分享数据包括所述用户账户分享的多篇文章;
根据所述样本用户对应的所述文章分享数据构建分享序列特征,所述分享序列特征用于表征不同文章之间的分享顺序;
根据所述分享序列特征构建对应于所述样本用户的标签序列特征,所述标签序列特征用于表征不同文章之间文章标签的分享顺序;
根据所述分享序列特征和所述标签序列特征进行样本构建,得到所述训练样本。
进一步地,所述根据所述样本用户对应的所述文章分享数据构建分享序列特征,包括:
对所述文章分享数据中的所述文章进行筛选,并获取筛选后所述文章对应的分享时间;
根据所述分享时间对筛选后的所述文章进行排序,得到所述文章分享数据对应所述样本用户的所述分享序列特征。
进一步地,所述对所述文章分享数据中的所述文章进行筛选,包括:
对所述文章分享数据中的所述文章进行重复分享检测,所述重复分享检测用于检测所述文章分享数据中是否存在相同文章;
若所述文章分享数据中存在相同文章,则分别获取所述相同文章的分享时间,并根据所述相同文章的分享时间进行文章删除,且删除掉的所述文章的数量小于所述相同文章的数量。
进一步地,所述根据所述相同文章的分享时间进行文章删除,包括:
分别计算所述相同文章的分享时间与当前时间之间的时间差;
将最小所述时间差对应的所述相同文章进行保留,并在所述文章分享数据中删除其余所述时间差对应的所述相同文章。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011217114.3/2.html,转载请声明来源钻瓜专利网。