[发明专利]一种文本匹配数据处理方法、装置、系统以及存储介质在审

申请号：	202211209355.2	申请日：	2022-09-30
公开（公告）号：	CN115658844A	公开（公告）日：	2023-01-31
发明（设计）人：	蔡晓东;董丽芳	申请（专利权）人：	桂林电子科技大学
主分类号：	G06F16/33	分类号：	G06F16/33;G06F17/15
代理公司：	北京轻创知识产权代理有限公司 11212	代理人：	何佩英
地址：	541004 广西***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本匹配数据处理方法装置系统以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种文本匹配数据处理方法、装置、系统以及存储介质，属于语言处理领域，方法包括：对原始句子对的编码得到原始句子对向量；对原始句子对向量的卷积处理得到第一文本向量和第二文本向量；分别对第一文本向量以及第二文本向量的均值化处理对应得到第一均值化后向量以及第二均值化后向量；分别对第一均值化后向量以及第二均值化后向量的规范化分析对应得到多个第一目标向量以及多个第二目标向量；将各个第一目标向量与各个第二目标向量对应的相似性分数计算得到文本匹配结果。本发明能准确提取句子对丰富的语义信息，实现不同视角下的文本匹配，相对现有技术，能够更全面、客观地判断文本的相似性且提升了文本匹配的准确性。

技术领域

本发明主要涉及语言处理技术领域，具体涉及一种文本匹配数据处理方法、装置、系统以及存储介质。

背景技术

文本匹配是自然语言处理中的一项重要且富有挑战的任务，旨在计算两个文本之间的相似性分数，可以应用于搜索引擎、推荐系统等场景。但在现有的文本匹配中，通常的做法是从一个视角判断句子对的相似性，而这样的做法会存在主观性，从而导致精确率不高。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种文本匹配数据处理方法、装置、系统以及存储介质。

本发明解决上述技术问题的技术方案如下：一种文本匹配数据处理方法，包括如下步骤：

从多视角文本相似性数据集中获得原始句子对，并对所述原始句子对进行编码，得到原始句子对向量；

对所述原始句子对向量进行卷积处理，得到第一文本向量和第二文本向量；

分别对所述第一文本向量以及所述第二文本向量进行均值化处理，对应得到第一均值化后向量以及第二均值化后向量；

分别对所述第一均值化后向量以及所述第二均值化后向量进行规范化分析，对应得到多个第一目标向量以及多个第二目标向量；

将各个所述第一目标向量与各个所述第二目标向量对应进行相似性分数计算，得到多个相似性分数，并将所有所述相似性分数作为文本匹配结果。