[发明专利]一种基于自学习的场景文本匹配方法及系统在审

申请号：	202211524896.4	申请日：	2022-11-30
公开（公告）号：	CN115759068A	公开（公告）日：	2023-03-07
发明（设计）人：	周婷婷;焦旭;徐圣源;梁变	申请（专利权）人：	之江实验室
主分类号：	G06F40/279	分类号：	G06F40/279;G06F40/216;G06F18/2135;G06F18/24
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	邱启旺
地址：	311121 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于自学习场景文本匹配方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于自学习的场景文本匹配方法及系统，选择预训练词向量数据集，将场景语料数据转化为预训练词向量数据集对应的场景词向量；自定义设置场景语料样本数量阈值，当场景语料数据小于场景语料样本数量阈值时，场景语料数据作为少量样本，将其输入到无监督学习模型中转化为对应的第一场景文本向量；在场景语料数据积累超过设置的场景语料样本数量阈值后，将其输入有监督学习模型转化为对应的第二场景文本向量；计算第一场景文本向量、第二场景文本向量与待匹配文本的文本相似度并排序，修正文本匹配结果，得到文本匹配对；依据文本匹配对优化无监督学习模型和有监督学习模型，修正文本相似度的计算方式。

技术领域

本发明属于语义文本匹配技术领域，特别涉及一种基于自学习的场景文本匹配方法及系统。

背景技术

现有技术中，在文本匹配的方法往往是，提取两个文本信息的文本特征，进而基于提取的文本特征向量通过计算相似度判断两个文本信息是否匹配。基于有监督学习的深度学习算法模型的构建，需要以大量的文本语料为基础，通过对模型大规模的参数做训练得到合适的参数结果，让模型在特定场景中的推断结果得到提升。但是实际的应用场景存在着语料数据缺失的普遍现状。

针对语料数据缺失的情况，通常可以通过人工标注的方式来获取大规模的语料标注，但是大规模枯燥重复的语料标注工作和大量的人力投入要求，让模型训练的成本无形中提升了很多，也让自然语言处理(NLP，Natural Language Processing)技术在实际场景应用中存在很大的先决门槛要求。因此，需要提供一种用户可接受的在少量语料数据的基础上实现NLP技术落地的系统解决方案。

本发明在少量语料数据的基础上利用无监督模型给到用户文本匹配的推荐结果，结合用户给到系统的反馈结果不断积累文本匹配库的语料数据，最终实现大规模语料数据的积累并同步完成模型的迭代更新及系统性能的提升。

发明内容

针对现有技术不足，本发明提供了一种基于自学习的场景文本匹配方法及系统。

为实现上述发明目的，本发明的技术方案为：本发明实施例第一方面提供了一种基于自学习的场景文本匹配方法，所述方法包括以下子步骤：

选择预训练词向量数据集，将场景语料数据转化为预训练词向量数据集对应的场景词向量；

自定义设置场景语料样本数量阈值，当场景语料数据小于场景语料样本数量阈值时，场景语料数据作为少量样本，将少量样本输入到无监督学习模型中，使场景词向量转化为对应的第一场景文本向量；

在场景语料数据积累超过设置的场景语料样本数量阈值后，将其输入有监督学习模型，使场景词向量转化为对应的第二场景文本向量；

计算第一场景文本向量、第二场景文本向量与待匹配文本的文本相似度并排序，修正文本匹配结果，得到文本匹配对；

依据文本匹配对优化无监督学习模型和有监督学习模型，修正文本相似度的计算方式。

本发明实施例第二方面提供了一种基于自学习的场景文本匹配系统，用于实现上述的场景文本匹配方法，所述系统包括：

预训练词向量生成模块，用于选择预训练词向量数据集，将场景语料数据转化为预训练词向量数据集对应的场景词向量；

无监督学习模块，用于将场景词向量转化为对应的第一场景文本向量；