[发明专利]文本匹配方法、装置、设备及存储介质有效
申请号: | 202110942420.1 | 申请日: | 2021-08-17 |
公开(公告)号: | CN113656547B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 沈越 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06N3/0464 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 匹配 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能,提供一种文本匹配方法、装置、设备及存储介质。该方法能够当接收到文本匹配请求时,根据文本匹配请求获取搜索语句,获取语句降维模型的长度需求,根据长度需求对搜索语句进行编码处理,得到语句编码,基于语句降维模型分析语句编码,得到语句信息,对语句信息进行归一化处理,得到语句特征,根据文本匹配请求获取待选文本及待选信息,对待选信息进行过滤处理,得到待选特征,根据语句特征及待选特征计算搜索语句与待选文本的文本相似度,将文本相似度最大的待选文本确定为目标文本。本发明能够提高文本匹配效率及匹配准确性。此外,本发明还涉及区块链技术,所述目标文本可存储于区块链中。
技术领域
本发明涉及人工智能技术领域,尤其涉及一种文本匹配方法、装置、设备及存储介质。
背景技术
文本匹配,是指从知识库中匹配出与搜索语句语义相似的文本,通过文本匹配这种方式能够提高用户阅读效率。在目前的文本匹配实现方式中,基于BERT模型对搜索语句与每个待选文本进行共同学习,以选取出最为匹配的文本,然而,这种方式由于重复处理步骤较多,以及,训练出的BERT模型参数较多,导致匹配效率低下。
发明内容
鉴于以上内容,有必要提供一种文本匹配方法、装置、设备及存储介质,能够提高匹配效率及匹配准确性。
一方面,本发明提出一种文本匹配方法,所述文本匹配方法包括:
当接收到文本匹配请求时,根据所述文本匹配请求获取搜索语句;
获取预先训练好的语句降维模型,并获取所述语句降维模型的长度需求;
根据所述长度需求对所述搜索语句进行编码处理,得到语句编码;
基于所述语句降维模型分析所述语句编码,得到语句信息;
对所述语句信息进行归一化处理,得到语句特征;
根据所述文本匹配请求获取多个待选文本及每个待选文本对应的待选信息;
对所述待选信息进行过滤处理,得到待选特征;
根据所述语句特征及所述待选特征计算所述搜索语句与每个待选文本的文本相似度;
将所述文本相似度最大的待选文本确定为目标文本。
根据本发明优选实施例,所述根据所述文本匹配请求获取搜索语句包括:
解析所述文本匹配请求的报文,得到所述报文携带的数据信息;
从所述数据信息中提取语句路径及语句标识,并计算所述语句路径及所述语句标识的查询总量;
根据所述查询总量获取查询模板;
将所述语句路径及所述语句标识写入所述查询模板中,得到查询语句;
运行所述查询语句,得到所述搜索语句。
根据本发明优选实施例,所述根据所述长度需求对所述搜索语句进行编码处理,得到语句编码包括:
对所述搜索语句进行拆分处理,得到多个搜索字符及每个搜索字符的拆分序号;
基于字符映射表获取每个搜索字符的字符向量;
根据所述拆分序号拼接所述字符向量,得到初始编码;
根据所述语句标识确定所述搜索语句所属的语句类型;
拼接预设标识、所述语句类型的类型标识及所述初始编码,得到中间编码,并计算所述中间编码的编码长度;
若所述编码长度大于所述长度需求,根据所述长度需求处理所述中间编码,得到所述语句编码;或者
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110942420.1/2.html,转载请声明来源钻瓜专利网。