[发明专利]一种基于向量相似性计算的短视频演员同类客户相斥方法在审
申请号: | 202110237808.1 | 申请日: | 2021-03-03 |
公开(公告)号: | CN112948632A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 王梓鉴;孙伟 | 申请(专利权)人: | 秒影工场(北京)科技有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06F16/78;G06F16/783;G06F16/787;G06K9/00 |
代理公司: | 南京鼎傲知识产权代理事务所(普通合伙) 32327 | 代理人: | 刘蔼民 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 向量 相似性 计算 视频 演员 同类 客户 相斥 方法 | ||
1.一种基于向量相似性计算的短视频演员同类客户相斥方法,其特征在于:包括如下步骤:
S1、客户数据库的基础:客户行业、地域、体量和产品信息库的建立,以及整个库的持续优化与迭代,对商业短视频相关的全行业客户有相对全局的覆盖;
S2、客户数据经过了清洗,特征工程,对枚举维度、数值维度做预处理;
S3、基于S2产生的归一化过的维度数量适中的数据,然后计算所有客户之间的向量余弦距离;
S4、设定相似角度余弦值,计算相斥结果。
2.根据权利要求1所述的一种基于向量相似性计算的短视频演员同类客户相斥方法,其特征在于,所述S1中客户数据的是平台的一部分,在制作流程中已经由用户自行录入了包括产品在内的结构化数据,除了用户的录入外,会根据其订单的情况抽取进一步的分类;
所述录入信息包括行业、地域、目标人群维度组;
所述分类包括核心产品品类、服务规模、常用演员类型、素材类型。
3.根据权利要求1所述的一种基于向量相似性计算的短视频演员同类客户相斥方法,其特征在于,所述S2中行业类型枚举维度,单一维度内的离散值维度(行业:在线教育/线下教育/保险),被拆成N个{0,1}的二值维度,原来单一维度扩大到∑Ni个二值维度,表示行业是否是“在线教育”,行业是否是“线下教育”,地域是否是“上海”的;
体量相关数值类维度,按照自然对数LogX计算方法,切成N个离散区间,N个离散区间,再按照枚举维度的方法归一化化为N个独立二值维度,最终将所有维度的值都对齐到[0,1]区间的。
4.根据权利要求1所述的一种基于向量相似性计算的短视频演员同类客户相斥方法,其特征在于,所述S3中没有使用实时KNN(K最近邻,K-NearestNeighbor)算法获得与该客户最相似的TOPK个客户的原因是客户数量并没有达到海量的程度,并且属性相对固定,所以计算的方法是预先计算所有客户之间的向量余弦距离,每增加一个客户,与其他所有向量再做一次预计算,将余弦距离存入数据库中,这样拥有N个客户全库的余弦值库有N^个数。
5.根据权利要求1所述的一种基于向量相似性计算的短视频演员同类客户相斥方法,其特征在于,所述S4中余弦值公式为
其中A,B为两个独立的客户向量;
λ为自设阈值常量,当cosθ≥λ时,为过于相似。
6.根据权利要求5所述的一种基于向量相似性计算的短视频演员同类客户相斥方法,其特征在于,所述S4中历史客户与当前客户的值存在过于相似的情况,要在该订单下对相应演员做相斥处理,在新的客户需求进来的时候,匹配出合适的a个演员,针对a个演员的每一个,都找到他的历史服务客户列表l,当l中的任何一个客户与当前客户存在相似度过高(cosθ≥λ)的情况,就做相斥处理;
余弦距离cosθ已经预先计算并存在数据库中了,这个相斥过程可以做到实时出结果,相斥过程对于同品牌客户不做相斥处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于秒影工场(北京)科技有限公司,未经秒影工场(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110237808.1/1.html,转载请声明来源钻瓜专利网。