[发明专利]一种问卷样本处理方法及装置在审
申请号: | 202110379675.1 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113010659A | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 李泽帆;范俊豪;邱锦森 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06K9/62 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 叶虹 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 问卷 样本 处理 方法 装置 | ||
本申请属于计算机技术领域,具体涉及一种问卷样本处理方法及装置。问卷样本处理方法包括:获取待处理的问卷样本及问卷样本对应的用户行为数据,其中,用户行为数据包括用户完成问卷样本的过程中的操作行为及操作行为发生的时间的时间戳;将问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到问卷样本的特征数据;基于问卷样本的特征数据预测问卷样本的无效概率;当问卷样本的无效概率大于预设阈值时,判定问卷样本为无效问卷样本。基于本申请的问卷样本处理方法及装置能够根据问卷样本的无效概率判定无效问卷样本,有利于将无效问卷样本从回收的大量问卷样本中高效地挑选并清洗出来,从而能够提高回收的问卷样本的数据可靠性。
技术领域
本申请属于计算机技术领域,具体涉及一种问卷样本处理方法及装置。
背景技术
在问卷调研中,存在刷回收或回答者不认真答题等现象,从而影响调研形成的报告的可靠性,影响问卷调研的结论的准确性。因此,在问卷回收完后可以通过人工对问卷的有效性进行判断的方式将这部分无效样本剔除。但是,如果采用人工对问卷的有效性进行判断的方式判别无效样本,需要大量的人力成本和时间成本,判断速度较低,并且要求每个操作人员对无效样本的的敏感性较高,才能准确地识别出无效样本,可操作性较低。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种问卷样本处理方法及装置,至少在一定程度上克服相关技术中采用人工对问卷的有效性进行判断的方式判别无效样本的识别效率低等技术问题。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请实施例的一个方面,提供一种问卷样本处理方法,所述方法包括:
获取待处理的问卷样本及所述问卷样本对应的用户行为数据,其中,所述用户行为数据包括用户完成问卷样本的过程中的操作行为及所述操作行为发生的时间的时间戳;
将所述问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到所述问卷样本的特征数据;
基于所述问卷样本的特征数据预测所述问卷样本的无效概率;
当所述问卷样本的无效概率大于预设阈值时,判定所述问卷样本为无效问卷样本。
根据本申请实施例的一个方面,提供一种问卷样本处理装置,所述问卷样本处理装置包括:
样本数据获取模块,被配置为获取待处理的问卷样本及所述问卷样本对应的用户行为数据,其中,所述用户行为数据包括用户完成问卷样本的过程中的操作行为及所述操作行为发生的时间的时间戳;
特征数据获取模块,被配置为将所述问卷样本的用户行为数据以预设粒度进行聚合和特征提取,得到所述问卷样本的特征数据;
无效概率预测模块,被配置为基于所述问卷样本的特征数据预测所述问卷样本的无效概率;
问卷样本判定模块,被配置为当所述问卷样本的无效概率大于预设阈值时,判定所述问卷样本为无效问卷样本。
在本申请的一些实施例中,基于以上技术方案,所述特征数据获取模块包括:
中间数据获取单元,被配置为将所述问卷样本的用户行为数据以题目粒度进行聚合和特征提取,得到以题目为粒度的中间数据;
特征数据获取单元,被配置为将所述中间数据以问卷样本粒度进行聚合和特征提取,得到所述问卷样本的特征数据。
在本申请的一些实施例中,基于以上技术方案,所述无效概率预测模块包括:
特征数据划分单元,被配置为将所述特征数据划分为数值类特征数据和非数值类特征数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110379675.1/2.html,转载请声明来源钻瓜专利网。