[发明专利]基于迁移学习的文本匹配方法、装置、介质及设备在审
| 申请号: | 201910650372.1 | 申请日: | 2019-07-18 |
| 公开(公告)号: | CN110377714A | 公开(公告)日: | 2019-10-25 |
| 发明(设计)人: | 潘申龄;杨正良;刘设伟 | 申请(专利权)人: | 泰康保险集团股份有限公司;泰康在线财产保险股份有限公司 |
| 主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06K9/62 |
| 代理公司: | 隆天知识产权代理有限公司 72003 | 代理人: | 郑特强;聂慧荃 |
| 地址: | 100031 北*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语义向量 匹配 查询语句 文本匹配 语句集合 语句 自然语言处理技术 迁移 计算机存储介质 电子设备 目标匹配 语言模型 语义表示 准确度 正整数 文本 学习 | ||
1.一种基于迁移学习的文本匹配方法,其特征在于,所述方法包括:
获取查询语句以及与所述查询语句对应的待匹配语句集合;
基于预训练的语言模型,确定关于所述待匹配语句集合中第i个待匹配语句与所述查询语句的第i组语义向量集,其中,每组所述语义向量集包含第一语义向量和第二语义向量;
根据第i组语义向量集中的第一语义向量与第二语义向量确定所述第i个待匹配语句与所述查询语句之间的匹配值,其中,i为正整数;
根据所述匹配值,在所述待匹配语句集合中确定所述查询语句的目标匹配文本。
2.根据权利要求1所述的基于迁移学习的文本匹配方法,其特征在于,在所述确定关于所述待匹配语句集合中第i个待匹配语句与所述查询语句的第i组语义向量集之前,所述方法还包括:
获取多组样本,其中,每组样本包含一语句对和用于标识所述语句对是否相匹配的分类标签;
根据所述样本中的训练集,对所述预训练的语言模型进行微调训练。
3.根据权利要求2所述的基于迁移学习的文本匹配方法,其特征在于,所述方法还包括:
根据所述样本中的测试集,对所述微调训练后的预训练的语言模型进行测试,得到测试结果;
响应于所述测试结果满足预设条件,则得到训练好的所述预训练的语言模型,以用于确定所述第i组语义向量集。
4.根据权利要求2所述的基于迁移学习的文本匹配方法,其特征在于,所述预训练的语言模型包含N个隐含层,N为大于2的整数;其中,
所述基于预训练的语言模型,确定关于所述待匹配语句集合中第i个待匹配语句与所述查询语句的第i组语义向量集,包括:
根据所述预训练的语言模型的第N-1个隐含层的输出,确定关于所述待匹配语句集合中第i个待匹配语句与所述查询语句的第i组语义向量集。
5.根据权利要求4所述的基于迁移学习的文本匹配方法,其特征在于,所述根据第i组语义向量集中的第一语义向量与第二语义向量确定所述第i个待匹配语句与所述查询语句之间的匹配值,包括:
对于第i组所述语义向量集:
确定所述第一语义向量与所述第二语义向量之间的距离向量,以及确定所述第一语义向量与所述第二语义向量之间的角度向量;
根据所述距离向量和所述角度向量确定目标向量,并对所述目标向量进行全连接处理和归一化处理,得到所述第i个待匹配语句与所述查询语句之间的匹配值。
6.根据权利要求2所述的基于迁移学习的文本匹配方法,其特征在于,所述根据所述匹配值,在所述待匹配语句集合中确定所述查询语句的目标匹配文本,包括:
按照大小关系对所述待匹配语句对应的匹配值进行排序;并将大于预设阈值的目标匹配值对应的待匹配语句作为所述查询语句的目标匹配文本;或,
将最大匹配值对应的待匹配语句作为所述查询语句的目标匹配文本。
7.根据权利要求1至6中任意一项所述的基于迁移学习的文本匹配方法,其特征在于,所述预训练的语言模型为BERT、OpenAI GPT或ELMo。
8.一种基于迁移学习的文本匹配装置,其特征在于,所述装置包括:
获取模块,用于获取查询语句以及与所述查询语句对应的待匹配语句集合;
语义向量确定模块,用于基于预训练的语言模型,确定关于所述待匹配语句集合中第i个待匹配语句与所述查询语句的第i组语义向量集,其中,每组所述语义向量集包含第一语义向量和第二语义向量;
匹配值确定模块,用于根据第i组语义向量集中的第一语义向量与第二语义向量确定所述第i个待匹配语句与所述查询语句之间的匹配值,其中,i为正整数;
目标匹配文本确定模块,用于根据所述匹配值,在所述待匹配语句集合中确定所述查询语句的目标匹配文本。
9.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任意一项所述的基于迁移学习的文本匹配方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任意一项所述的基于迁移学习的文本匹配方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司;泰康在线财产保险股份有限公司,未经泰康保险集团股份有限公司;泰康在线财产保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910650372.1/1.html,转载请声明来源钻瓜专利网。





