[发明专利]一种数据处理方法、装置及存储介质在审

申请号：	202010019023.2	申请日：	2020-01-08
公开（公告）号：	CN111258991A	公开（公告）日：	2020-06-09
发明（设计）人：	肖克聪;崔志;崔建伟	申请（专利权）人：	北京松果电子有限公司
主分类号：	G06F16/215	分类号：	G06F16/215;G06F16/242
代理公司：	北京善任知识产权代理有限公司 11650	代理人：	康艳青
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种数据处理方法。获取预备输出的第一数据；利用使用口语化数据训练得到的数据模型，对所述第一数据中非口语数据进行清洗得到第二数据；输出所述第二数据。本发明还公开了一种数据处理装置、存储介质。

技术领域

本发明涉及计算机应用技术，尤其涉及一种数据处理方法、装置及存储介质。

背景技术

人机对话领域中，人工智能经常使用预存的语言材料。语言材料可以从网络资源中收集而来，但是收集的语言材料情况复杂，常有非口语话的语言材料。为了使人工智能的对话能达到人与人之间的真实口语对话的体验，通常需要将收集的语言材料中的非口语语言材料清洗，即去除非口语语言材料。语言材料的清洗通常由人工处理。人工清洗对清洗人员提出了较高的能力要求，并且预先需要定制大量清洗规则。

发明内容

为克服相关技术中存在的问题，本发明提供一种数据处理方法、装置及存储介质。

根据本发明实施例的第一方面，提供一种数据处理方法，包括：

获取预备输出的第一数据；

利用使用口语化数据训练得到的数据模型，对所述第一数据中非口语数据进行清洗得到第二数据；

输出所述第二数据。

在一个实施例中，所述利用使用口语化数据训练得到的数据模型，对所述第一数据中非口语数据进行清洗得到第二数据，包括：

采用所述数据模型确定所述第一数据中待确定数据的困惑度(PPL，Perplexity)，其中，所述PPL用于指示对应所述待确定数据为不确定所述口语化数据的程度；

去除所述第一数据中PPL大于或等于PPL阈值的所述待确定数据，得到所述第二数据。

在一个实施例中，所述方法还包括：

将所述第二数据作为训练样本加入训练集；

利用所述训练集包含的训练样本，优化训练所述数据模型。