[发明专利]样本构建方法及装置在审
| 申请号: | 202211465617.1 | 申请日: | 2022-11-22 |
| 公开(公告)号: | CN115712712A | 公开(公告)日: | 2023-02-24 |
| 发明(设计)人: | 阎覃;张天宇;孙子钧;赵薇;柳景明 | 申请(专利权)人: | 北京猿力教育科技有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332 |
| 代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 李东海 |
| 地址: | 100102 北京市朝阳区广顺南大街*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 样本 构建 方法 装置 | ||
本说明书提供样本构建方法及装置,其中所述样本构建方法包括:获取多个历史对话序列,将多个历史对话序列中包含关键词的至少两个对话序列作为初始对话序列,并在多个历史对话序列中筛选第一负对话序列;生成至少两个初始对话序列分别对应的初始对话样本,以及所述第一负对话序列对应的第一负对话样本;根据至少两个初始对话样本的属性信息,将至少两个初始对话样本划分为第一正对话样本和第二负对话样本,其中,所述第一正对话样本和所述第二负对话样本均包含关键词;将所述第一负对话样本和所述第二负对话样本存储至负对话样本集合,将所述第一正对话样本存储至正对话样本集合。
技术领域
本说明书涉及计算机技术领域,特别涉及一种样本构建方法。本说明书同时涉及一种样本构建装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
随着互联网技术的发展,线上服务逐渐走进人们的学习和生活。线上交流模式会产生大量的对话数据,通过对这些对话数据进行检测,即可确定服务方在提供咨询、问题解决等服务的过程中是否出现不合规的服务方式或服务用语等。
现有技术中,在对对话数据进行合规性检测时,通常使用人工阅读对话数据,以及关键词检索的方法。然而人工阅读的方式需要耗费大量的人力资源,且准确率较低;关键词检索的方法直接基于对话数据进行关键词检测,样本较为单一,且具有较大的局限性,误召回概率高,预测准确度低,因此,亟需一种样本构建方法以解决上述问题。
发明内容
有鉴于此,本说明书实施例提供了一种样本构建方法。本说明书同时涉及一种样本构建装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种样本构建方法,包括:
获取多个历史对话序列,将多个历史对话序列中包含关键词的至少两个对话序列作为初始对话序列,并在多个历史对话序列中筛选第一负对话序列;
生成至少两个初始对话序列分别对应的初始对话样本,以及所述第一负对话序列对应的第一负对话样本;
根据至少两个初始对话样本的属性信息,将至少两个初始对话样本划分为第一正对话样本和第二负对话样本,其中,所述第一正对话样本和所述第二负对话样本均包含关键词;
将所述第一负对话样本和所述第二负对话样本存储至负对话样本集合,将所述第一正对话样本存储至正对话样本集合。
根据本说明书实施例的第二方面,提供了一种样本构建装置,包括:
获取模块,被配置为获取多个历史对话序列,将多个历史对话序列中包含关键词的至少两个对话序列作为初始对话序列,并在多个历史对话序列中筛选第一负对话序列;
生成模块,被配置为生成至少两个初始对话序列分别对应的初始对话样本,以及所述第一负对话序列对应的第一负对话样本;
划分模块,被配置为根据至少两个初始对话样本的属性信息,将至少两个初始对话样本划分为第一正对话样本和第二负对话样本,其中,所述第一正对话样本和所述第二负对话样本均包含关键词;
存储模块,被配置为将所述第一负对话样本和所述第二负对话样本存储至负对话样本集合,将所述第一正对话样本存储至正对话样本集合。
根据本说明书实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现所述样本构建方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述样本构建方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京猿力教育科技有限公司,未经北京猿力教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211465617.1/2.html,转载请声明来源钻瓜专利网。





