[发明专利]中日词语自动对齐方法和系统有效

申请号：	202210397055.5	申请日：	2022-04-15
公开（公告）号：	CN114896959B	公开（公告）日：	2023-07-07
发明（设计）人：	李泽中;任福继;孙晓	申请（专利权）人：	合肥工业大学
主分类号：	G06F40/189	分类号：	G06F40/189;G06F40/284;G06F40/30;G06F18/22
代理公司：	北京久诚知识产权代理事务所(特殊普通合伙) 11542	代理人：	王云海
地址：	230009 安***	国省代码：	安徽;34
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	中日词语自动对齐方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种中日词语自动对齐方法、系统、存储介质和电子设备，涉及语言翻译处理技术领域。本发明中，省略计算子词对齐过程，计算二次切分获取的第二子词序列中，任意中文子词和日语子词的上下文表示向量之间的语义相似度，构建子词相似度矩阵；根据子词相似度矩阵，获取任意一对双语词之间的词对齐分数，确定原始平行语料的对齐关系。直接从子词相似度矩阵计算出双语之间的词对齐分数，更充分地利用子词相似度矩阵所包含的信息，得到更精准和健壮的词对齐结果。

技术领域

本发明涉及语言翻译处理技术领域，具体涉及一种中日词语自动对齐方法、系统、存储介质和电子设备。

背景技术

词语自动对齐，简称为词对齐，其目的在于指明双语平行句对中词之间的对应关系。近年来基于深度神经网络的机器翻译已经成为当今的主流技术，词对齐已经不是翻译模型的必备模块，但是词对齐依旧是研究的热点，由于可以应用在双语词典挖掘，机器翻译的词汇约束解码，错误分析和后编辑上，近年来仍然获得了很多研究者的关注。

目前，单独为词对齐建模的方法是基于深度模型的词对齐方法的代表之一，其利用多语言预训练语言模型直接进行词对齐的推理，具体而言是先从子词相似度矩阵得到子词对齐结果，然后两个词只要其包含的子词之间存在对齐，则认为词之间也存在对齐关系，

但是，上述方法至少存在以下缺陷：很容易造成一个词和多个词产生对齐关系，影响最终的对齐结果。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种中日词语自动对齐方法、系统、存储介质和电子设备，解决了容易造成一个词和多个词产生对齐关系的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种中日词语自动对齐方法，包括：