[发明专利]一种目标文本确定方法、装置及设备在审
申请号: | 202010146140.5 | 申请日: | 2020-03-05 |
公开(公告)号: | CN111401031A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 胡伟 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F40/194;G06F16/33;G06K9/62 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 王戈 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 目标 文本 确定 方法 装置 设备 | ||
本说明书实施例提供一种目标文本确定方法、装置及设备。方案包括获取待分析文本;针对文本库中包含的任意一个基础文本,采用n种文本相似度算法计算待分析文本与任意一个基础文本的相似度,得到n个相似度,n≥2;采用文本相似度确定模型,基于n个相似度计算待分析文本与每个基础文本的综合相似度,得到综合相似度集合;将综合相似度集合中最大相似度对应的基础文本确定为目标文本。
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种目标文本确定方法、装置及设备。
背景技术
合同是当事人或当事双方之间设立、变更、终止民事关系的协议。依法成立的合同,受法律保护。合同又称为契约、协议,是平等的当事人之间设立、变更、终止民事权利义务关系的协议。
在智能法务应用中,构建法务合同的条款库。条款库中包括一些基础条款,在智能问答机器人中的找合同场景,用户输入合同名字,机器可以从条款库中找到用户想要的合同条款。此时,需要采用文本相似度的计算方法,计算用户输入的文本和现有合同条款库中的合同名的相似度,根据相似度查找目标合同条款返回给用户。因此,文本相似度算法的好坏决定了查找目标合同的准确率。
因此,需要提供一种更可靠的目标文本确定方案。
发明内容
有鉴于此,本说明书一个或多个实施例提供了一种目标文本确定方法、装置及设备,用于提高文本相似度的计算精度,进而提高目标文本的查找准确率。
为解决上述技术问题,本说明书实施例是这样实现的:
本说明书实施例提供的一种文本相似度确定模型的生成方法,包括:
获取包含多个样本数据对的样本数据集合,所述样本数据对中包括两个文本数据以及一个样本标签,所述样本标签表示所述两个文本数据是否相似;
针对每个样本数据对,采用n种文本相似度算法计算所述样本数据对的相似度,得到n个相似度,n≥2;
采用预设权重值对所述n个相似度进行加权求和,计算每个样本数据对的综合相似度,得到综合相似度集合;所述综合相似度集合中包含每个所述样本数据对的综合相似度;
根据所述样本标签以及所述综合相似度集合,对所述预设权重值进行更新,得到更新后的权重值;
根据所述更新后的权重值生成文本相似度确定模型。
本说明书实施例提供的一种目标文本确定方法,包括:
获取待分析文本;
针对文本库中包含的任意一个基础文本,采用n种文本相似度算法计算所述待分析文本与所述任意一个基础文本的相似度,得到n个相似度,n≥2;
采用文本相似度确定模型,基于所述n个相似度计算所述待分析文本与每个所述任意一个基础文本的综合相似度,得到综合相似度集合;所述综合相似度集合中包含每个基础文本与所述待分析文本的综合相似度;所述文本相似度确定模型是采用权利要求1所述的方法生成的;
将所述综合相似度集合中最大相似度对应的基础文本确定为目标文本。
本说明书实施例提供的一种文本相似度确定模型的生成装置,包括:
样本数据集合获取模块,用于获取包含多个样本数据对的样本数据集合,所述样本数据对中包括两个文本数据以及一个样本标签,所述样本标签表示所述两个文本数据是否相似;
相似度计算模块,用于针对每个样本数据对,采用n种文本相似度算法计算所述样本数据对的相似度,得到n个相似度,n≥2;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010146140.5/2.html,转载请声明来源钻瓜专利网。