[发明专利]一种目标文本确定方法、装置及设备在审
申请号: | 202010146140.5 | 申请日: | 2020-03-05 |
公开(公告)号: | CN111401031A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 胡伟 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/289;G06F40/194;G06F16/33;G06K9/62 |
代理公司: | 北京晋德允升知识产权代理有限公司 11623 | 代理人: | 王戈 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 目标 文本 确定 方法 装置 设备 | ||
1.一种文本相似度确定模型的生成方法,包括:
获取包含多个样本数据对的样本数据集合,所述样本数据对中包括两个文本数据以及一个样本标签,所述样本标签表示所述两个文本数据是否相似;
针对每个样本数据对,采用n种文本相似度算法计算所述样本数据对的相似度,得到n个相似度,n≥2;
采用预设权重值对所述n个相似度进行加权求和,计算每个样本数据对的综合相似度,得到综合相似度集合;所述综合相似度集合中包含每个所述样本数据对的综合相似度;
根据所述样本标签以及所述综合相似度集合,对所述预设权重值进行更新,得到更新后的权重值;
根据所述更新后的权重值生成文本相似度确定模型。
2.如权利要求1所述的方法,所述n种文本相似度算法包括向量余弦相似度算法、编辑距离算法、最长公共子串算法、基于词交集占比的算法、模糊距离算法和simhash相似度算法中的至少两种。
3.如权利要求2所述的方法,所述采用n种文本相似度算法计算所述样本数据对的相似度,具体包括:
采用向量余弦相似度算法计算所述样本数据对的第一相似度;
采用编辑距离算法计算所述样本数据对的第二相似度;
采用最长公共子串算法计算所述样本数据对的第三相似度;
采用基于词交集占比的算法确定所述样本数据对的第四相似度。
4.如权利要求3所述的方法,所述采用向量余弦相似度算法计算所述样本数据对的第一相似度,具体包括:
采用词向量模型将所述样本数据对映射为第一词向量和第二词向量;
计算所述第一词向量与第二词向量之间的余弦距离,得到第一相似度。
5.如权利要求3所述的方法,所述基于编辑距离算法计算所述样本数据对的第二相似度,具体包括:
将所述样本数据对转换为字符串,得到第一字符串和第二字符串;
确定第一字符串转换为所述第二字符串所执行的操作的操作次数,所述操作包括字符的替换、字符的删除和/或字符的增加;
根据所述操作次数确定所述第二相似度,所述操作次数与所述第二相似度成反比。
6.如权利要求3所述的方法,所述基于最长公共子串算法计算所述样本数据对的第三相似度,具体包括:
确定所述样本数据对中的最长公共子串;
从所述样本数据对中的两个样本数据中确定字符长度短的样本数据的字符长度;
将所述最长公共子串对应的字符长度与所述样本数据对中字符长度短的样本数据对应的字符长度的比值作为第三相似度。
7.如权利要求3所述的方法,所述基于词交集占比方法确定所述样本数据对的第四相似度,具体包括:
对所述样本数据对进行分词,确定所述样本数据对中相同词的数量;
确定所述样本数据对中字符长度短的样本数据对应的分词数量;
计算所述相同词的数量与所述分词数量的比值,得到所述样本数据对的第四相似度。
8.如权利要求1所述的方法,所述根据所述样本标签以及所述综合相似度集合,对所述预设权重值进行更新,得到更新后的权重值,具体包括:
基于梯度下降算法根据所述样本标签以及所述综合相似度集合,对所述预设权重值进行更新,得到更新后的权重值。
9.如权利要求8所述的方法,所述基于梯度下降算法根据所述样本标签以及所述综合相似度集合,对所述预设权重值进行更新,得到更新后的权重值,具体包括:
根据所述样本标签以及所述综合相似度集合计算每个样本数据对的代价函数;
根据所述代价函数沿着负梯度方向对预设权重值进行迭代更新,直至所述代价函数收敛至函数最小值为止,得到更新后的权重值。
10.如权利要求1所述的方法,所述采用预设权重值对所述n个相似度进行加权求和之前,还包括:
随机初始化n种文本相似度算法对应的权重值,得到预设权重,其中,n种文本相似度算法对应的权重值之和为1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010146140.5/1.html,转载请声明来源钻瓜专利网。