[发明专利]一种数据处理方法、装置和用于数据处理的装置在审

申请号：	201811320799.7	申请日：	2018-11-07
公开（公告）号：	CN111160046A	公开（公告）日：	2020-05-15
发明（设计）人：	施亮亮	申请（专利权）人：	北京搜狗科技发展有限公司
主分类号：	G06F40/58	分类号：	G06F40/58;G06F40/44;G06F40/30
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100084 北京市海淀区中关***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置用于
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种数据处理方法，其特征在于，所述方法包括：

根据翻译模型，确定语料库中语料对中第一语料对应第二语料的概率值；其中，所述第一语料与所述第二语料之间具有翻译关系；所述翻译模型为依据语料对样本训练得到；

依据所述概率值，对所述语料库中的语料对进行过滤。

2.根据权利要求1所述的方法，其特征在于，所述依据所述概率值，对所述语料库中的语料对进行过滤，包括：

从所述语料库中删除概率值不超过预设阈值的语料对。

3.根据权利要求2所述的方法，其特征在于，通过如下步骤确定所述预设阈值：

根据所述翻译模型，确定语料库中每个语料对分别对应的概率值；

根据多个语料对分别对应的概率值，确定平均概率值；

根据所述平均概率值，确定预设阈值。

4.根据权利要求1所述的方法，其特征在于，通过如下步骤训练所述翻译模型：

将所述样本中的第一语料对应的语言作为源语言、以及将所述样本中的第二语料对应的语言作为目标语言，训练翻译模型；或者

将所述样本中的第一语料对应的语言作为目标语言、以及将所述样本中的第二语料对应的语言作为源语言，训练翻译模型。

5.根据权利要求1所述的方法，其特征在于，通过如下步骤训练所述翻译模型：

对所述语料库中语料对中的第一语料、以及第二语料以词为单位进行切分，以得到所述第一语料对应的词序列、以及所述第二语料对应的词序列；

对所述第一语料对应的词序列、以及所述第二语料对应的词序列执行逆向操作，以得到所述第一语料对应的逆向词序列、以及所述第二语料对应的逆向词序列；

将所述第一语料对应的逆向词序列、以及所述第二语料对应的逆向词序列组成的逆向语料对作为样本，训练翻译模型。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将概率值不超过预设阈值的语料对确定为目标语料对；

确定所述目标预料对的错误类型；

根据所述错误类型，确定所述目标语料对的正确第一语料、以及正确第二语料；

根据所述正确第一语料、以及所述正确第二语料，对语料库中的所述目标语料对进行更新。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将过滤后的语料库中的语料对作为样本，训练所述翻译模型。

8.一种数据处理装置，其特征在于，包括：

概率确定模块，用于根据翻译模型，确定语料库中语料对中第一语料对应第二语料的概率值；其中，所述第一语料与所述第二语料之间具有翻译关系；所述翻译模型为依据语料对样本训练得到；

过滤模块，用于依据所述概率值，对所述语料库中的语料对进行过滤。

9.一种用于数据处理的装置，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令：

依据所述概率值，对所述语料库中的语料对进行过滤。

10.一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得装置执行如权利要求1至7中一个或多个所述的数据处理方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司，未经北京搜狗科技发展有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811320799.7/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载