[发明专利]一种基于自学习的场景文本匹配方法及系统在审
申请号: | 202211524896.4 | 申请日: | 2022-11-30 |
公开(公告)号: | CN115759068A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 周婷婷;焦旭;徐圣源;梁变 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/216;G06F18/2135;G06F18/24 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 311121 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自学习 场景 文本 匹配 方法 系统 | ||
1.一种基于自学习的场景文本匹配方法,其特征在于,所述方法包括以下子步骤:
选择预训练词向量数据集,将场景语料数据转化为预训练词向量数据集对应的场景词向量;
自定义设置场景语料样本数量阈值,当场景语料数据小于场景语料样本数量阈值时,场景语料数据作为少量样本,将少量样本输入到无监督学习模型中,使场景词向量转化为对应的第一场景文本向量;
在场景语料数据积累超过设置的场景语料样本数量阈值后,将其输入有监督学习模型,使场景词向量转化为对应的第二场景文本向量;
计算第一场景文本向量、第二场景文本向量与待匹配文本的文本相似度并排序,修正文本匹配结果,得到文本匹配对;
依据文本匹配对优化无监督学习模型和有监督学习模型,修正文本相似度的计算方式。
2.根据权利要求1所述的基于自学习的场景文本匹配方法,其特征在于,选择预训练词向量数据集,将场景语料数据转化为预训练词向量数据集对应的场景词向量的过程包括:对场景语料数据进行分词,再对分词结果做停用词剔除处理,并将处理后的分词转化为预训练词向量数据集中相应的场景词向量。
3.根据权利要求1所述的基于自学习的场景文本匹配方法,其特征在于,场景词向量转化为对应的第一场景文本向量的过程包括:
计算少量样本中出现的分词对应的频率;
由场景词向量计算场景文本向量,公式如下:
其中|s|为句子s中词语的个数,a为超参数;p(w)为少量样本中出现的分词对应的频率;
针对场景语料数据S中的所有文本s的文本向量ws组成矩阵X,进行主成分分析获取最大主成分向量u;
重新获取场景语料数据,针对场景语料数据TS中的文本ts,计算文本ts的文本向量vts,计算公式如下:
将文本vts去除样本分析的最大主成分,以此作为文本ts的文本向量vts,计算公式如下:
vts=vts-uuTvts。
4.根据权利要求1所述的基于自学习的场景文本匹配方法,其特征在于,所述有监督学习模型选自ESIM、BiMPM、DIIN、Cafe、ELmo、GPT或者Bert。
5.根据权利要求1所述的基于自学习的场景文本匹配方法,其特征在于,计算第一场景文本向量、第二场景文本向量与待匹配文本的文本相似度的过程包括:基于余弦相似度计算第一场景文本向量、第二场景文本向量与待匹配文本的文本相似度,得到第一文本相似度、第二文本相似度;设定第一权重、第二权重,将第一权重乘第一文本相似度作为第一项、第一权重乘第一文本相似度作为第二项,两项相加得到文本相似度。
6.根据权利要求5所述的基于自学习的场景文本匹配方法,其特征在于,修正文本匹配结果的过程包括:
将无监督模型和有监督模型输出的匹配文本结果分别与修正后的文本匹配结果进行比对,统计无监督模型误判率和有监督模型误判率;
第一权重更新为:无监督模型误判率与总误判率之比;
第二权重更新为:有监督模型误判率与总误判率之比。
7.根据权利要求1所述的基于自学习的场景文本匹配方法,其特征在于,所述方法还包括:重新获取场景语料数据作为测试样本,输入至优化好的无监督学习模型和有监督学习模型,得到匹配文本结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211524896.4/1.html,转载请声明来源钻瓜专利网。