[发明专利]语句样本集的生成方法、电子装置及存储介质有效
申请号: | 201911089477.0 | 申请日: | 2019-11-08 |
公开(公告)号: | CN110837559B | 公开(公告)日: | 2023-03-10 |
发明(设计)人: | 刘臣;盛欢 | 申请(专利权)人: | 卫盈联信息技术(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/335;G06F16/31 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;郭梦霞 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语句 样本 生成 方法 电子 装置 存储 介质 | ||
本发明涉及数据处理技术,提供了一种语句样本集的生成方法、电子装置及存储介质。该方法从语料库中读取预设数量的语句,基于二分K均值算法对语句执行聚类操作,若存在语句数量大于预设值的语句类,再利用K均值算法对该语句类执行聚类操作,得到语句集,将语句集中相同语句类别的语句组合成多个语句对,筛选出满足第一条件和第二条件的语句对,将该语句对的语句作为正样本集,将语句集中不同类别的语句随机组合成多个语句对,筛选出满足第三条件和第四条件的语句对,将该语句对的语句作为负样本集,将正负样本集反馈至用户,并存储至预设存储路径。本发明可以在占用系统内存小的情况下快速生成大量的语句样本,且生成的语句的语义合理。
技术领域
本发明涉及数据处理领域,尤其涉及一种语句样本集的生成方法、电子装置及存储介质。
背景技术
目前在自然语言的处理过程中,需要大量相似语句对和非相似语句对作为训练深度学习模型的训练数据集,句子对的集合需要人工来编写,耗费大量的人力和时间。采用sequence to sequence的方式获取句子对的结合,但此方式在学术科研界比较活跃,实际应用中生成的语句的语义并不合理,缺乏一定的实用性,且生成语句样本的效率较低。
发明内容
鉴于以上内容,本发明提供一种语句样本集的生成方法、电子装置及存储介质,其目的在于解决现有技术中生成语句样本效率低且生成的语句的语义不合理的问题。
为实现上述目的,本发明提供一种语句样本集的生成方法,该方法包括:
聚类步骤:从预设语料库中读取预设数量的语句,基于二分K均值算法对所述语句执行聚类操作,得到包含多个语句类别的第一语句集,判断所述第一语句集中是否存在语句数量大于第一预设值的语句类,若存在,则利用K均值算法对该语句类的语句执行聚类操作,得到包含多个语句类别的第二语句集;
第一筛选步骤:遍历所述第一语句集及所述第二语句集,将所述第一语句集及所述第二语句集中相同语句类别的语句组合成多个语句对,从该语句对中筛选出满足第一条件的语句对,再从满足第一条件的语句对中筛选出满足第二条件的语句对,将该语句对的语句作为正样本集;
第二筛选步骤:遍历所述第一语句集及所述第二语句集,将所述第一语句集及所述第二语句集中不同类别的语句随机组合成多个语句对,从该语句对中筛选出满足第三条件的语句对,再从满足第三条件的语句对中筛选出满足第四条件的语句对,将该语句对的语句作为负样本集;及
生成步骤:接收用户发出的生成语句样本集的请求,响应所述请求,将所述正样本集及所述负样本集反馈至所述用户,并将所述正样本集及所述负样本集存储至预设存储路径。
优选的,所述筛选出满足第一条件的语句对包括:
识别出各个语句对中的两个语句的字数,分别计算各语句对中两个语句的字数的差值,筛选出所述差值小于第二预设值对应的语句对。
优选的,所述筛选出满足第二条件的语句对包括:
识别出满足第一条件的语句对中的两个语句的字数,基于预设计算规则分别计算出各语句对中两个语句的相似系数,筛选出所述相似系数大于第三预设值对应的语句对。
优选的,所述预设的计算规则包括:
其中,A表示语句对中的一个句子的单字集合,B表示语句对中的另一个句子的单字集合,J(A,B)表示单字集合A与单字集合B的相似系数。
优选的,所述筛选出满足第二条件的语句对还包括:
利用BERT模型将满足第一条件的语句对中的两个语句转换为句向量,基于余弦相似度算法计算两个句向量的文本相似度,筛选出所述文本相似度大于第三预设值对应的语句对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于卫盈联信息技术(深圳)有限公司,未经卫盈联信息技术(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911089477.0/2.html,转载请声明来源钻瓜专利网。