[发明专利]篇章对齐方法、装置、计算机设备和介质在审
申请号: | 202111411704.4 | 申请日: | 2021-11-25 |
公开(公告)号: | CN114564932A | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 施杨斌;葛鑫 | 申请(专利权)人: | 阿里巴巴达摩院(杭州)科技有限公司 |
主分类号: | G06F40/189 | 分类号: | G06F40/189;G06K9/62 |
代理公司: | 北京成创同维知识产权代理有限公司 11449 | 代理人: | 李秀霞 |
地址: | 311121 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 篇章 对齐 方法 装置 计算机 设备 介质 | ||
本公开提供了一种篇章对齐方法、装置、计算机设备和介质。该篇章对齐方法用于确定第一文本包括的第一篇章和第二文本包括的第二篇章是否对齐,第一文本包括第二篇章的多个预对齐篇章且第二文本包括第一篇章的多个预对齐篇章,该方法包括:确定第一篇章和第二篇章各自篇章向量的余弦相似度,得到目标相似度;确定第一篇章和其预对齐篇章各自篇章向量的余弦相似度,得到多个第一相似度;确定第二篇章和其预对齐篇章各自篇章向量的余弦相似度,得到多个第二相似度;根据目标相似度与多个第一相似度和多个第二相似度的差距,确定第一篇章和第二篇章是否对齐。本公开使得篇章对的判别精准度得以提高。
技术领域
本公开涉及人工智能领域,具体而言,涉及一种篇章对齐方法、装置、计算机 设备和介质。
背景技术
高质量、大数量的双语平行语料是训练机器翻译模型的关键。双语平行语料的 来源众多,常见的不仅有联合国语料、字幕语料和词典例句语料,还有近些年来随 互联网发展而越来越多的互联网语料。
从互联网语料中提取双语平行语料,离不开互译篇章对的挖掘(即需要执行篇 章对齐的步骤)。以苹果公司为例,该公司具有中英日韩等几乎所有国家的本地化 官网,这些本地化官网各自提供以本地语言描述iPhone 13的互联网语料,从这些 互联网语料中提取双语平行语料,首先需要从两个本地化官网中挖掘出描述iPhone 13的互译篇章对,在得到篇章对后方可通过篇章对中挖掘互译句对来得到所需的双 语平行语料。
目前,篇章对齐方法在确定两篇章是否对齐时只考虑了两篇章各自所对应篇章向量的余弦相似度,这种方法会因多语言嵌入信息部分丢失或不准而降低篇章对判 别的精准度。
发明内容
有鉴于此,本公开旨在改善篇章对齐方法,从而使得确定的篇章对具有较高的 对齐准确度。
根据本公开的第一方面,提供一种篇章对齐方法,用于确定第一文本包括的第 一篇章和第二文本包括的第二篇章是否对齐,第一文本包括所述第二篇章的多个预 对齐篇章且第二文本包括所述第一篇章的多个预对齐篇章,所述方法包括:
确定所述第一篇章和所述第二篇章各自篇章向量的余弦相似度,得到目标相似度;
确定所述第一篇章和其预对齐篇章各自篇章向量的余弦相似度,得到多个第一相似度;
确定所述第二篇章和其预对齐篇章各自篇章向量的余弦相似度,得到多个第二相似度;
根据所述目标相似度与所述多个第一相似度和所述多个第二相似度的差距,确定所述第一篇章和所述第二篇章是否对齐。
可选地,根据所述目标相似度与所述多个第一相似度和所述多个第二相似度的差距,确定所述第一篇章和所述第二篇章是否对齐,包括:
根据第一相似信息确定所述第一篇章和所述第二篇章是否对齐;
其中,所述第相似一信息为所述目标相似度和相似度平均值的商,所述相似度 平均值为所述多个第一相似度和所述多个第二相似度的平均值。
可选地,所述第一文本和所述第二文本包括的各篇章皆为一个网页中的文本内容,根据第一相似信息确定所述第一篇章和所述第二篇章是否对齐,包括:
根据所述第一相似信息和第二相似信息的加权和确定所述第一篇章和所述第二篇章是否对齐;
其中,所述第二相似信息为确定第一文档信息和第二文档信息是否相似的信息,所述第一文档信息为所述第一篇章所对应网页的元信息,所述第二文档信息为所述 第二篇章所对应网页的元信息
可选地,所述篇章对齐方法,还包括确定所述第一篇章和所述第二篇章各自预 对齐篇章的篇章向量,且确定步骤如下:
获取当前文本中各篇章的篇章向量,得到多个候选篇章向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴达摩院(杭州)科技有限公司,未经阿里巴巴达摩院(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111411704.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图像传感器和包括该图像传感器的图像感测系统
- 下一篇:用于电动机的壳体的罩壳