[发明专利]结合文本表征的召回方法和系统在审
申请号: | 202310108519.0 | 申请日: | 2023-01-18 |
公开(公告)号: | CN115952333A | 公开(公告)日: | 2023-04-11 |
发明(设计)人: | 高培鑫;宝鹏庆;金宏 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F16/9032 | 分类号: | G06F16/9032;G06F16/903;G06F18/213;G06N3/088;G06F16/9038;G06Q40/03 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 钱孟清 |
地址: | 310023 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 结合 文本 表征 召回 方法 系统 | ||
1.一种结合文本表征的召回方法,包括:
获取与商户相关的文本信息,所述文本信息包括与商户相关的商户名称、商户地址、WiFi文本名称中的至少一者;
将所述文本信息转换成第一向量;
基于所述第一向量来确定属于同一实体的候选商户对;以及
对候选商户对进行打分和排序以输出属于同一实体的商户对。
2.根据权利要求1所述的方法,还包括获取与商户相关联的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的至少一者,并且所述方法还包括:
在两个商户的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的所述至少一者相同时,确定这两个商户属于同一实体并将这两个商户作为候选商户对。
3.根据权利要求1所述的方法,其中所述文本信息还包括商户登录历史的IP地址序列,并且所述方法还包括:
将所述IP地址序列转换成第二向量;以及
基于所述第二向量来确定属于同一实体的候选商户对。
4.根据权利要求3所述的方法,其中所述转换是通过文本表征模型来实现的,所述文本表征模型是通过对初步模型进行训练来得到的。
5.根据权利要求4所述的方法,其中所述初步模型是孟子模型。
6.根据权利要求5所述的方法,其中所述训练使用Cosine Sentence方案,并且其中所述Cosine Sentence方案使用如下损失函数:
其中λ是超参数,(ui,uj)和(uk,ul)是样本对,i、j、k、l是正整数,Ωpos是正样本集合,且Ωneg是负样本集合,
其中所述训练使得对于任意正样本对(ui,uj)∈Ωpos和负样本对(uk,ul)∈Ωneg,都有cos(ui,uj)大于cos(uk,ul)。
7.根据权利要求6所述的方法,其中所述训练还使用对比学习来对所述初步模型进行训练,其中所述对比学习使用SimCSE方案。
8.根据权利要求7所述的方法,其中所述训练还将所述Cosine Sentence方案的损失函数与所述SimCSE方案的损失函数进行加权,以获得经加权的损失函数。
9.根据权利要求8所述的方法,还包括采用白化降维来将文本表征模型所输出的向量进行降维。
10.根据权利要求1所述的方法,还包括应用属于同一实体的商户对来进行风控。
11.一种结合文本表征的召回系统,包括:
获取模块,所述获取模块被配置成获取与商户相关的文本信息,所述文本信息包括与商户相关的商户名称、商户地址、WiFi文本名称中的至少一者;
文本表征模块,所述文本表征模块被配置成将所述文本信息转换成第一向量;
识别模块,所述识别模块被配置成基于所述第一向量来确定属于同一实体的候选商户对;以及
输出模块,所述输出模块被配置成对候选商户对进行打分和排序以输出属于同一实体的商户对。
12.根据权利要求11所述的系统,所述获取模块还被配置成获取与商户相关联的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的至少一者,并且所述识别模块还被配置成在两个商户的电话号码、身份标识号、电子邮箱地址、社交网络账号、WiFi地址中的所述至少一者相同时,确定这两个商户属于同一实体并将这两个商户作为候选商户对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310108519.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自密实抗冻混凝土及其制备工艺
- 下一篇:防御方法、装置、设备及存储介质