[发明专利]文本翻译方法及装置有效
申请号: | 201711488585.6 | 申请日: | 2017-12-29 |
公开(公告)号: | CN108228576B | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 黄宜鑫;孟廷;刘俊华;魏思;胡国平 | 申请(专利权)人: | 科大讯飞股份有限公司 |
主分类号: | G06F40/58 | 分类号: | G06F40/58;G06F16/35 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 苗青盛;马英迪 |
地址: | 230088 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 翻译 方法 装置 | ||
本发明实施例提供一种文本翻译方法及装置,属于语言处理技术领域。该方法包括:基于源文本的特征向量及每种聚类类别对应的聚类中心特征向量,确定源文本所属的聚类类别;将源文本所属的聚类类别进行向量化,得到源文本对应的聚类类别向量,将源文本中分词的词向量与源文本对应的聚类类别向量进行整合,将整合结果输入至翻译模型,输出至少一个候选目标文本及每个候选目标文本对应的翻译分值;基于每个候选目标文本的翻译分值,从所有候选目标文本中选取一个候选目标文本作为源文本的翻译结果。由于在翻译过程中可结合源文本的整体语义及其它翻译隐藏参考要素对源文本进行翻译。因此,提高了翻译模型的领域鲁棒性及翻译准确度。
技术领域
本发明实施例涉及语言处理技术领域,更具体地,涉及一种文本翻译方法及装置。
背景技术
机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。目前侧重于结合用户的使用领域对源文本(源语言对应的文本)进行机器翻译,即在机器翻译时考虑用户讲话内容的应用领域。其中,应用领域可以分为教育领域、科研领域及人文领域等等。对于语音识别后得到的源文本,相关技术中提供了如下两种文本翻译方法:
第一种是位于语料层面的文本翻译方法,主要是先确定源文本的应用领域,筛选同属该应用领域的训练语料,并基于筛选出的训练语料构建翻译模型,从而利用构建的翻译模型来对源文本进行翻译。
第二种是位于模型层面的文本翻译方法,主要是将多个不同应用领域的翻译模型进行组合,如根据源文本的应用领域与不同翻译模型的应用领域之间的相关度,为每一翻译模型赋予权重,从而按照每一翻译模型的权重将所有翻译模型进行组合生成新的混合模型,利用新的混合模型对源文本进行翻译。
由于上述方法均需要预先确定源文本的应用领域,但是在实际翻译过程中源文本的应用领域可能难以确定,且同一词汇可能会属于多个应用领域,从而导致很难准确翻译。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的文本翻译方法及装置。
根据本发明实施例的第一方面,提供了一种文本翻译方法,该方法包括:
基于源文本的特征向量及每种聚类类别对应的聚类中心特征向量,确定源文本所属的聚类类别;其中,每种聚类类别对应一个聚类中心特征向量,每种聚类类别及每种聚类类别对应的聚类中心特征向量是对训练源文本的特征向量进行聚类后所确定的;
将源文本所属的聚类类别进行向量化,得到源文本对应的聚类类别向量,将源文本中分词的词向量与源文本对应的聚类类别向量进行整合,将整合结果输入至翻译模型,输出至少一个候选目标文本及每个候选目标文本对应的翻译分值;
基于每个候选目标文本的翻译分值,从所有候选目标文本中选取一个候选目标文本作为源文本的翻译结果。
本发明实施例提供的方法,通过基于源文本的特征向量及每种聚类类别对应的聚类中心特征向量,确定源文本所属的聚类类别。将源文本所属的聚类类别进行向量化,得到源文本对应的聚类类别向量,将源文本中分词的词向量与源文本对应的聚类类别向量进行整合,将整合结果输入至翻译模型,输出至少一个候选目标文本,每个候选目标文本对应一个翻译分值。基于每个候选目标文本的翻译分值,从所有候选目标文本中选取一个候选目标文本作为源文本的翻译结果。由于在翻译前可确定源文本所属的聚类类别,并可将源文本及源文本所属的聚类类别一起作为翻译模型的输入参数,从而使得翻译过程可结合源文本的整体语义及其它隐藏翻译要素对源文本进行翻译。因此,提高了翻译模型的领域鲁棒性及翻译准确度。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,该方法还包括:
对源文本中所有分词的词向量取平均值,得到源文本的特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞股份有限公司,未经科大讯飞股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711488585.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:语音翻译交互方法及系统
- 下一篇:在线翻译方法、装置、设备及计算机可读介质