[发明专利]文本翻译方法及装置有效
申请号: | 201711488585.6 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108228576B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 黄宜鑫;孟廷;刘俊华;魏思;胡国平 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F16/35 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗青盛;马英迪 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 翻译 方法 装置 | ||
1.一种文本翻译方法,其特征在于,包括:
基于源文本的特征向量及每种聚类类别对应的聚类中心特征向量,确定所述源文本所属的聚类类别;其中,每种聚类类别对应一个聚类中心特征向量,每种聚类类别及每种聚类类别对应的聚类中心特征向量是对训练源文本的特征向量进行聚类后所确定的;
将所述源文本所属的聚类类别进行向量化,得到所述源文本对应的聚类类别向量,将所述源文本中分词的词向量与所述源文本对应的聚类类别向量进行整合,将整合结果输入至翻译模型,输出至少一个候选目标文本及每个候选目标文本对应的翻译分值;
基于每个候选目标文本的翻译分值,从所有候选目标文本中选取一个候选目标文本作为所述源文本的翻译结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述源文本中所有分词的词向量取平均值,得到所述源文本的特征向量。
3.根据权利要求1所述的方法,其特征在于,所述基于源文本的特征向量及每种聚类类别对应的聚类中心特征向量,确定所述源文本所属的聚类类别,包括:
计算源文本对应的特征向量与每个聚类中心特征向量之间的距离,确定计算得到的所有距离中最小距离对应的聚类中心特征向量,并作为目标聚类中心特征向量;
将所述目标聚类中心特征向量对应的聚类类别作为所述源文本所属的聚类类别。
4.根据权利要求1所述的方法,其特征在于,所述基于每个候选目标文本的翻译分值,从所有候选目标文本中选取一个候选目标文本作为所述源文本的翻译结果,包括:
将每个候选目标文本分别输入至所述源文本所属的聚类类别对应的领域语言模型,输出每个候选目标文本的领域语言模型分值;
根据每个候选目标文本的翻译分值及领域语言模型分值,从所有候选目标文本中选取一个候选目标文本作为所述源文本的翻译结果。
5.根据权利要求4所述的方法,其特征在于,所述根据每个候选目标文本的翻译分值及领域语言模型分值,从所有候选目标文本中选取一个候选目标文本作为所述源文本的翻译结果,包括:
对每个候选目标文本的翻译分值及领域语言模型分值进行加权求和,得到每个候选目标文本的综合分值,从所有综合分值中选取最大综合分值对应的候选目标文本作为所述源文本的翻译结果。
6.根据权利要求1所述的方法,其特征在于,所述将所述源文本中分词的词向量与所述源文本对应的聚类类别向量进行整合,包括:
在所述源文本中第一个分词的词向量之前添加所述源文本对应的聚类类别向量;或者,
将所述源文本对应的聚类类别向量分别与所述源文本中每一分词的词向量进行拼接;或者,
在所述源文本中第一个分词的词向量之前添加所述源文本对应的聚类类别向量,并将所述源文本对应的聚类类别向量分别与所述源文本中每一分词的词向量进行拼接。
7.根据权利要求1所述的方法,其特征在于,所述翻译模型为编解码模型,所述翻译模型中的编码模型采用双向循环神经网络结构,所述翻译模型中的解码模型采用循环神经网络结构;相应地,所述将整合结果输入至翻译模型,输出至少一个候选目标文本,包括:
将整合结果输入至所述翻译模型中,分别得到源文本中每一分词在源文本所属的聚类类别下的前向表征及反向表征;
将每一分词在所述源文本所属的聚类类别下的前向表征及反向表征进行拼接,得到每一分词在所述源文本中的表征向量;
基于每一分词在所述源文本中的表征向量对所述源文本进行解码,得到至少一个候选目标文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711488585.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:语音翻译交互方法及系统
- 下一篇:在线翻译方法、装置、设备及计算机可读介质