[发明专利]利用外积注意力的众包任务推荐算法在审
申请号: | 202011473999.3 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112487799A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 陈彦如;王浩;赵琪雯;张媛媛;胡顺仿;王伟;廖俊华;刘雁林;张磊;梁刚;许春;陈良银 | 申请(专利权)人: | 成都易书桥科技有限公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610065 四川省成都*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 注意力 任务 推荐 算法 | ||
1.利用外积注意力的众包任务推荐算法,其特征在于:
首先通过众包任务中的属性级学习方式学习任务特征,随后引入众包角色发布方利用基于物品协同过滤思想学习发布方和工人特征,随后将任务、发布方和工人特征输入外积注意力机制,最后利用引入带强弱负样本的交叉熵损失函数对工人能否中标进行预测;
具体做法是:
第一步,对用于特征学习的输入数据进行预处理;将任务形式和任务分类作为类别型特征,以整数0-N(N=任务形式类别数)和0-M(M=任务分类类别数)表示;将报酬总额除以参与中威客中标人数(由于一些任务允许多人中标)得到单人赏金,单人赏金为数值型特征,进行分桶处理后映射到0-40。将发布方id、工人id等中文id转换成数字id后转换成one-hot编码;将任务形式和任务分类也转换成数字编号,将任务名称作为文本型特征,使用中文分词工具JIEBA进行分词,将任务名称拆分成许多独立个体的词,这样能够方便后面将词转化成向量;分词后去除停用词。使用Word2vec模型预训练了词向量。在得到词向量后,将标题中分好词的词向量拼接后,得到标题的输入矩阵。对拼接后词向量长度不够的补0到最大长度。
第二步,用第一步中预处理完成的输入特征通过属性级任务特征学习方式学习任务特征,用工人中标过任务特征表示工人特征,用发布方发布过的任务特征组成发布方特征;
第三步,将第二步中得到的任务、工人和发布方特征输入特征融合模块,将经特征融合后的工人和发布方特征输入外积注意力机制,外积注意力机制输出分配过注意力权重的工人和发布方序列特征;
第四步,将第三步中分配过注意力权重的工人和发布方序列特征分别相加后,得到工人和发布方特征作为预测模块的输入,训练时以改进后的带权交叉熵作为损失函数,预测工人的投标行为能否中标,得到预测分数;
第五步,用第四步得到的预测分数按降序生成推荐列表。
2.如权利要求1所述的利用外积注意力的众包任务推荐算法,其特征在于:设计卷积神经网络结构在外积生成的二维矩阵中学习发布方和工人的注意力权重:
·将特征融合过后的工人序列g'和发布方序列和fs'um做外积,作为一个两层CNN的输入。第一层卷积核大小为[1,D,m],即m个宽高为1×D的卷积核;
·随后的最大池化(Maxpooling)窗口设置为D×1,第二层卷积使用的卷积核大小为[1,1,n],即n个宽高为1×1的卷积核,随后对通道间进行求和以保留多个记录的信息;
·随后取消卷积神经网络输出中常用的全连接层,经softmax操作后得到g'序列中记录的注意力权重ag,补0记录所在位置不参与softmax;
·随后在预测层中采样工人产生投标行为当天没有投标的任务,同投标没有但没有中标的任务一起作为负样本,并且在损失函数中对采样而来的负样本做权重惩罚。
3.根据权利要求2所述的方法,其特征在于,利用属性级任务特征学习方法得到任务特征,引入发布方特征与工人和任务特征共同决定工人能否中标,设计两层的卷积神经网络用于从外积矩阵中学习注意力权重,以保留记录的语义信息,引入弱负样本降低稀疏性带来的训练困难。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都易书桥科技有限公司,未经成都易书桥科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011473999.3/1.html,转载请声明来源钻瓜专利网。