[发明专利]一种聊天语料自清洗方法、装置和用户终端有效
申请号: | 201810053728.9 | 申请日: | 2018-01-19 |
公开(公告)号: | CN108170853B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 姚佳 | 申请(专利权)人: | 广东惠禾科技发展有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/289 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 陈晓云 |
地址: | 518000 广东省深圳市南山区粤海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种聊天语料自清洗方法、装置和用户终端,其中所述方法包括:根据问答对语料的词单元及其词向量构建神经网络模型;根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。本发明所提供方法实现人机交互过程中,对聊天语料的非人工的智能自清洗,可通过语料智能自清洗对海量语料进行筛选,语料清洗效率高、速度快,省去了大量人工参与进行语料筛选清洗的步骤,大大降低了开发成本,为人工智能开发人员的工作带来了极大的方便。 | ||
搜索关键词: | 一种 聊天 语料 清洗 方法 装置 用户 终端 | ||
根据问答对语料的词单元及其词向量构建神经网络模型;
根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;
根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。
2.如权利要求1所述聊天语料自清洗方法,其特征在于,所述“根据问答对语料的词单元及其词向量构建神经网络模型”包括:对所述问答对语料中的每个问语料和答语料设置第一语料标签;
抽取所述问答对语料中的所述问语料和所述答语料进行随机对应,并设置第二语料标签;
对随机对应的所述问答对语料中的所述问语料和所述答语料进行分词处理,并构建词单元向量化矩阵;
根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值;
基于所述词单元向量化矩阵,根据所述第一语料标签和所述第二语料标签所述匹配值进行参数学习,构建神经网络模型。
3.如权利要求2所述聊天语料自清洗方法,其特征在于,所述“根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值”包括:基于所述词单元向量化矩阵,获取所述问语料和所述答语料中的每个词单元的词向量;
构建随机问答对矩阵,并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值。
4.如权利要求3所述聊天语料自清洗方法,其特征在于,所述“构建随机问答对矩阵,并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值”包括:对所述问语料中每个所述词单元的所述词向量进行求和平均,得到问语料向量均值;对所述答语料中每个所述词单元的所述词向量进行求和平均,得到答语料向量均值;
构建随机问答对矩阵;
根据所述随机问答对矩阵对所述问语料向量均值和所述答语料向量均值进行求sigmoid函数计算,得到所述问语料和所述答语料的匹配值。
5.如权利要求1所述聊天语料自清洗方法,其特征在于,所述“根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料”包括:删除所述预测评估结果中低评分的所述问答对语料,得到清洗后语料,并将所述清洗后语料对应的预测评估结果与预设语料质量值进行匹配;
若所述清洗后语料对应的所述预测评估结果与所述预设语料质量值匹配,则输出目标对话语料;
若所述清洗后语料对应的所述预测评估结果与所述预设语料质量值不匹配,则返回所述“根据问答对语料的词单元及其词向量构建神经网络模型”。
6.如权利要求1所述聊天语料自清洗方法,其特征在于,所述“根据问答对语料的词单元及其词向量构建神经网络模型”之前,还包括:获取文本语料,并建立与所述文本语料对应的文本语料库;
构建所述文本语料库中所有词的所述词向量;
提取所述文本语料库中的所述问答对语料,并进行分词处理,得到所述词单元。
7.如权利要求6所述聊天语料自清洗方法,其特征在于,所述“构建所述文本语料库中所有词的所述词向量”包括:利用word2vec技术对所述文本语料库进行训练,构建所述文本语料库中所有词的所述词向量。
8.一种聊天语料自清洗装置,其特征在于,包括:构建模块、预测模块和清洗模块;所述构建模块,用于根据问答对语料的词单元及其词向量构建神经网络模型;
所述预测模块,用于根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;
所述清洗模块,用于根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。
9.一种用户终端,其特征在于,包括存储器以及处理器,所述存储器用于存储聊天语料自清洗程序,所述处理器运行所述聊天语料自清洗程序以使所述用户终端执行如权利要求1‑7中任一项所述聊天语料自清洗方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有聊天语料自清洗程序,所述聊天语料自清洗程序被处理器执行时实现如权利要求1‑7中任一项所述聊天语料自清洗方法。该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东惠禾科技发展有限公司,未经广东惠禾科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810053728.9/,转载请声明来源钻瓜专利网。