[发明专利]基于小样本学习的用户圈层挖掘方法、装置、介质及设备在审
| 申请号: | 202211264246.0 | 申请日: | 2022-10-17 |
| 公开(公告)号: | CN115329723A | 公开(公告)日: | 2022-11-11 |
| 发明(设计)人: | 牟昊;袁浩斌;何宇轩;徐亚波;李旭日 | 申请(专利权)人: | 广州数说故事信息科技有限公司 |
| 主分类号: | G06F40/117 | 分类号: | G06F40/117;G06N20/00;G06Q30/02;G06F16/951 |
| 代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 麦小婵 |
| 地址: | 510620 广东省广州*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 样本 学习 用户 挖掘 方法 装置 介质 设备 | ||
1.一种基于小样本学习的用户圈层挖掘方法,其特征在于,包括:
从网络平台中获取待处理语料集;
对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集;其中,所述标注语料集中的每一条标注语料对应标注了至少一个圈层名称,每一个圈层名称对应的标注语料的条数不小于预设条数阈值;
对所述标注语料集进行数据增强处理,获得增强后的标注语料集;
根据所述增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型;
根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称。
2.如权利要求1所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述从网络平台中获取待处理语料集,具体包括:
通过关键词搜索从网络平台中获取第一语料集;
通过账号搜索从网络平台中获取第二语料集;
根据所述第一语料集和所述第二语料集获得所述待处理语料集。
3.如权利要求2所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集,具体包括:
对所述第一语料集中的所有待处理语料进行逐条标注,确定每一条待处理语料对应的圈层名称;
对所述第二语料集中的所有待处理语料进行逐条标注或一键标注,确定每一条待处理语料对应的圈层名称;
根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集。
4.如权利要求3所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集,具体包括:
S21、对所述标注后的第一语料集和所述标注后的第二语料集中的标注语料进行合并去重处理;
S22、判断去重后的标注语料的条数是否满足以下条件:每一个圈层名称对应的标注语料的条数不小于预设条数阈值;
S23、若不满足,则继续从网络平台中获取新待处理语料集,对所述新待处理语料集中的所有新待处理语料进行圈层标注,获得新标注语料,对所述去重后的标注语料和所述新标注语料进行合并去重处理,并返回S22;
S24、若满足,则根据所述去重后的标注语料获得所述标注语料集。
5.如权利要求1所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述对所述标注语料集进行数据增强处理,获得增强后的标注语料集,具体包括:
将所述标注语料集中的每一个圈层名称对应的标注语料的X%,由当前语种翻译成第二语种,并由第二语种再翻译成当前语种,获得翻译语料,0<X≤100;
或/和,
将所述标注语料集中的标注语料两两拼接,并在拼接的两条标注语料对应的圈层名称不相同时,为拼接生成的一条标注语料标注新圈层名称,获得拼接语料;
根据所述标注语料集,并结合所述翻译语料或/和所述拼接语料,获得所述增强后的标注语料集。
6.如权利要求1所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述方法还包括:
当存在历史标注语料集时,对所述历史标注语料集和所述标注语料集进行合并去重处理,获得去重后的标注语料集;
则,所述对所述标注语料集进行数据增强处理,获得增强后的标注语料集,具体包括:
对所述去重后的标注语料集进行数据增强处理,获得所述增强后的标注语料集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州数说故事信息科技有限公司,未经广州数说故事信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211264246.0/1.html,转载请声明来源钻瓜专利网。





