[发明专利]文本匹配方法、装置及存储介质有效
| 申请号: | 202111472529.X | 申请日: | 2021-12-06 |
| 公开(公告)号: | CN113887192B | 公开(公告)日: | 2022-05-27 |
| 发明(设计)人: | 葛鑫;姜鹏;赵宇;骆卫华 | 申请(专利权)人: | 阿里巴巴达摩院(杭州)科技有限公司 |
| 主分类号: | G06F40/194 | 分类号: | G06F40/194 |
| 代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;林鑫 |
| 地址: | 310023 浙江省杭州市余杭*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文本 匹配 方法 装置 存储 介质 | ||
本申请实施例提供一种文本匹配方法、装置及存储介质,其中,文本匹配方法包括:获取原文本和至少一个待匹配文本,原文本和待匹配文本均包含至少一个语句;在至少一个待匹配文本的语句中确定与原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;根据原文本和待匹配文本中相互匹配的语句对的数量确定待匹配文本的相似度分值;根据待匹配文本的相似度分值在至少一个待匹配文本中确定与原文本匹配的目标文本。通过将文本中的语句进行匹配,确定相互匹配的语句对,能够更准确地确定两个文本之间的相似度分值,再根据文本之间的相似度分值确定相互匹配的文本,不需要训练多个模型,在保证较高的准确率的前提下,提高了匹配效率。
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种文本匹配方法、装置及存储介质。
背景技术
随着信息交流全球化的深入,机器翻译的需求量大幅度提升,例如,翻译跨国公司的技术资料、电商的商品信息等。而基于神经网络的机器翻译需要大量的双语互译的句对数据,获取双语句对数据的前置条件就是获取到语义平行的多语言文档对,即内容相同语种不同的多语言文档对。示例性地,随着互联网的高速发展,海量网页数据可以提供语义平行的多语言文档对,而基于大数据量、语种异构话等挑战,如何从海量的网页中挖掘互相平行的网页对是亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供一种文本匹配方法、装置及存储介质,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种文本匹配方法,包括:获取原文本和至少一个待匹配文本,原文本和待匹配文本均包含至少一个语句;在至少一个待匹配文本的语句中确定与原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;根据原文本和待匹配文本中相互匹配的语句对的数量确定待匹配文本的相似度分值;根据待匹配文本的相似度分值在至少一个待匹配文本中确定与原文本匹配的目标文本。
根据本申请实施例的第二方面,提供了一种文本匹配装置,包括:获取模块,用于获取原文本和至少一个待匹配文本,原文本和待匹配文本均包含至少一个语句;语句匹配模块,用于在至少一个待匹配文本的语句中确定与原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;相似度模块,用于根据原文本和待匹配文本中相互匹配的语句对的数量确定待匹配文本的相似度分值;文本匹配模块,用于根据待匹配文本的相似度分值在至少一个待匹配文本中确定与原文本匹配的目标文本。
根据本申请实施例的第三方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;存储器用于存放至少一可执行指令,可执行指令使处理器执行如第一方面的文本匹配方法对应的操作。
根据本申请实施例的第四方面,提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时,实现如第一方面的文本匹配方法。
根据本申请实施例的第五方面,提供了一种计算机程序产品,该计算机程序产品被处理器执行时,实现如第一方面的文本匹配方法。
本申请实施例提供的文本匹配方法、装置及存储介质,获取原文本和至少一个待匹配文本,原文本和待匹配文本均包含至少一个语句;在至少一个待匹配文本的语句中确定与原文本的语句相匹配的语句,并得到相互匹配的至少一个语句对;根据原文本和待匹配文本中相互匹配的语句对的数量确定待匹配文本的相似度分值;根据待匹配文本的相似度分值在至少一个待匹配文本中确定与原文本匹配的目标文本。通过将文本中的语句进行匹配,确定相互匹配的语句对,能够更准确地确定两个文本之间的相似度分值,再根据文本之间的相似度分值确定相互匹配的文本,不需要训练多个模型,在保证较高的准确率的前提下,提高了匹配效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴达摩院(杭州)科技有限公司,未经阿里巴巴达摩院(杭州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111472529.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于有源配电网的潮流计算方法
- 下一篇:一种带自锁的重型刀具存储套





