[发明专利]一种聊天语料自清洗方法、装置和用户终端有效
申请号: | 201810053728.9 | 申请日: | 2018-01-19 |
公开(公告)号: | CN108170853B | 公开(公告)日: | 2020-06-19 |
发明(设计)人: | 姚佳 | 申请(专利权)人: | 广东惠禾科技发展有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/289 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 陈晓云 |
地址: | 518000 广东省深圳市南山区粤海*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 聊天 语料 清洗 方法 装置 用户 终端 | ||
本发明提供了一种聊天语料自清洗方法、装置和用户终端,其中所述方法包括:根据问答对语料的词单元及其词向量构建神经网络模型;根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。本发明所提供方法实现人机交互过程中,对聊天语料的非人工的智能自清洗,可通过语料智能自清洗对海量语料进行筛选,语料清洗效率高、速度快,省去了大量人工参与进行语料筛选清洗的步骤,大大降低了开发成本,为人工智能开发人员的工作带来了极大的方便。
技术领域
本发明涉及人工智能技术领域,更具体地说,涉及一种聊天语料自清洗方法、装置和用户终端。
背景技术
在现有机器人人工智能交互中,聊天(闲聊)依然占据着重要的位置。而工业界中聊天的主流技术依然是通过构建高质量的聊天语料(即问答对),通过类检索的方式来匹配用户的闲聊语句。
但是高质量的聊天语料的获取依然是很困难的。而业界的做法大抵是通过网络爬取(如微博、BBS等),获取一定质量的问答对。但是这种爬取下来的数据难以直接应用上线,只能通过语料清洗后才可进行使用。
目前,聊天问答对的清洗主要为通过人工标注大量的问答对,进而通过有监督的机器学习方法进行分类使用;或者完全人工逐条筛选实现人工语料清洗。总之,现有的语料清洗方法均需要有大量的人工参与,无法实现智能自清洗,并且由于待清洗的语料规模庞大,所涉及到的人工标注工作量随之增大,语料清洗效率低,耗时长,成本高,为人工智能开发人员的工作带来极大的不便。
发明内容
有鉴于此,本发明提供一种聊天语料自清洗方法、装置和用户终端以解决现有技术的不足。
为解决上述问题,本发明提供一种聊天语料自清洗方法,包括:
根据问答对语料的词单元及其词向量构建神经网络模型;
根据所述神经网络模型对所述问答对语料进行评估预测,得到预测评估结果;
根据所述预测评估结果对所述问答对语料进行语料清洗,得到目标对话语料。
优选地,所述“根据问答对语料的词单元及其词向量构建神经网络模型”包括:
对所述问答对语料中的每个问语料和答语料设置第一语料标签;
抽取所述问答对语料中的所述问语料和所述答语料进行随机对应,并设置第二语料标签;
对随机对应的所述问答对语料中的所述问语料和所述答语料进行分词处理,并构建词单元向量化矩阵;
根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值;
基于所述词单元向量化矩阵,根据所述第一语料标签和所述第二语料标签对所述匹配值进行参数学习,构建神经网络模型。
优选地,所述“根据所述词单元向量化矩阵得到随机对应的所述问语料和所述答语料的匹配值”包括:
基于所述词单元向量化矩阵,获取所述问语料和所述答语料中的每个词单元的词向量;
构建随机问答对矩阵,并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值。
优选地,所述“构建随机问答对矩阵,并基于所述随机问答对矩阵对所述词向量计算得出所述问语料和所述答语料的匹配值”包括:
对所述问语料中每个所述词单元的所述词向量进行求和平均,得到问语料向量均值;对所述答语料中每个所述词单元的所述词向量进行求和平均,得到答语料向量均值;
构建随机问答对矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东惠禾科技发展有限公司,未经广东惠禾科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810053728.9/2.html,转载请声明来源钻瓜专利网。