[发明专利]文本匹配方法、装置及存储介质有效

申请号：	202111472529.X	申请日：	2021-12-06
公开（公告）号：	CN113887192B	公开（公告）日：	2022-05-27
发明（设计）人：	葛鑫;姜鹏;赵宇;骆卫华	申请（专利权）人：	阿里巴巴达摩院（杭州）科技有限公司
主分类号：	G06F40/194	分类号：	G06F40/194
代理公司：	北京合智同创知识产权代理有限公司 11545	代理人：	李杰;林鑫
地址：	310023 浙江省杭州市余杭***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本匹配方法装置存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种文本匹配方法，其中，所述方法用于机器翻译模型的训练，所述方法包括：

获取原文本和至少一个待匹配文本，所述原文本和所述待匹配文本均包含至少一个语句，其中，所述原文本和所述待匹配文本的语种不同；

在所述至少一个待匹配文本的语句中确定与所述原文本的语句相匹配的语句，并得到相互匹配的至少一个语句对；

根据所述原文本和所述待匹配文本中相互匹配的语句对的数量确定所述待匹配文本的相似度分值；

根据所述待匹配文本的相似度分值在所述至少一个待匹配文本中确定与所述原文本匹配的目标文本，所述原文本和所述目标文本为内容相同语种不同的文本；

其中，所述在所述至少一个待匹配文本的语句中确定与所述原文本的语句相匹配的语句，并得到相互匹配的至少一个语句对，包括：将所述原文本的语句与所述待匹配文本的语句进行编码得到所述原文本的语句向量和所述待匹配文本的语句向量；对所述原文本的语句向量和所述待匹配文本的语句向量进行近邻检索，根据检索结果确定相互匹配的至少一个语句对；

其中，对所述原文本的语句向量和所述待匹配文本的语句向量进行近邻检索，包括：将所述原文本的语句向量和所述待匹配文本的语句向量分别进行分割；对分割获得的每一个向量段建立索引号，通过对索引号进行聚类检索以实现所述原文本的语句向量和所述待匹配文本的语句向量的近邻检索。

2.根据权利要求1所述的方法，其中，所述方法还包括：

利用神经网络模型对所述原文本的语句向量和所述待匹配文本的语句向量进行降维处理，得到降维后的所述原文本的语句向量和所述待匹配文本的语句向量。

3.根据权利要求1所述的方法，其中，所述根据所述原文本和所述待匹配文本中相互匹配的语句对的数量确定所述待匹配文本的相似度分值，包括：

为所述语句对增加文本对标记，所述文本对标记包括所述语句对中包含的语句所属的原文本和待匹配文本；

根据所述文本对标记，确定所述待匹配文本与所述原文本相互匹配的语句对数量；

根据所述待匹配文本与所述原文本相互匹配的语句对数量计算所述待匹配文本的相似度分值。

4.根据权利要求3所述的方法，其中，所述根据所述待匹配文本与所述原文本相互匹配的语句对数量计算所述待匹配文本的相似度分值，包括：

将所述原文本的语句数量和所述待匹配文本的语句数量中的较大值作为基数；

所述待匹配文本与所述原文本相互匹配的语句对数量与所述基数的比值作为所述待匹配文本的相似度分值。

5.根据权利要求1所述的方法，其中，所述根据所述待匹配文本的相似度分值在所述至少一个待匹配文本中确定与所述原文本匹配的目标文本，包括：

按照相似度分值从大到小的顺序对M个所述待匹配文本进行排序得到待匹配文本序列；