[发明专利]一种基于多源特征的诈骗电话识别方法、系统及设备有效

专利信息
申请号: 202110138462.X 申请日: 2021-02-01
公开(公告)号: CN112866486B 公开(公告)日: 2022-06-07
发明(设计)人: 赵玺;褚启伍;任一民;邹建华 申请(专利权)人: 西安交通大学
主分类号: H04M3/22 分类号: H04M3/22;G06K9/62;G06N3/04;G06N3/08
代理公司: 西安通大专利代理有限责任公司 61200 代理人: 王艾华
地址: 710049 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 特征 诈骗 电话 识别 方法 系统 设备
【权利要求书】:

1.一种基于多源特征的诈骗电话识别方法,其特征在于,包括以下步骤:

构建包括正常号码、推销号码和诈骗号码三种类别用户的二度通话数据、位置数据和上网数据,并基于所述二度通话数据、位置数据和上网数据提取所述用户的基础特征;

基于用户的二度通话数据,构建基于图结构相似的Struct2Vec图网络模型,提取用户二度网络的结构特征,识别出多点一线的诈骗模式结构;

将用户的一度通话数据转换为所述用户通话时序数据,根据所述通话时序数据构建基于时序的通话时序特征组合;

将所述用户的基础特征、用户二度网络的结构特征以及通话时序特征组合进行融合,采用特征过滤和降维的方式构建出特征样本数据集;

用过采样方法Borderline-SMOTE平衡所述特征样本数据集;

构建黑白名单机制,并基于平衡后的特征样本数据集,构建包括boosting和bagging的多种不同集成学习组合,基于所述集成学习组合,采用分配权值的方式,构建正常、诈骗以及推销识别的融合分类模型,识别诈骗电话;基于图结构相似的Struct2Vec图网络模型,提取用户二度网络的结构特征,识别多点一线诈骗模式结构具体如下:

利用二度通话网络构建图,基于网络的每个顶点,获取每一层网络的顶点对距离,其中,层为以顶点为原点,一度网络为第一层,二度网络为第二层,以此类推;

顶点对距离fk(u,v)为:

fk(u,v)=fk-1(u,v)+g(s(Rk(u)),s(Rk(v))),k≥0and|Rk(u)|,|Rk(v)|>0

其中,Rk(u)表示到顶点u距离为k的顶点集合,Rk(v)表示到顶点v距离为k的顶点集合,S(Rk(u))表示顶点集合Rk(u)的有序度序列,即该集合顶点均为到顶点u距离为k的顶点,按照顶点的度数按顺序排列;

g(D1,D2)≥0是衡量有序度序列D1和D2距离的函数,即两个有序度序列的距离,基于Dynamic Timc Warping,定义元素之间的距离函数为:

fk(u,v)表示顶点u和v之间距离为k的环路上的结构距离,距离k实际上是指距离小于等于k的节点集合,每次会加上fk-1(u,v),迭代相加,这就是顶点对距离的函数;fk(u,v)=fk-1(u,v)+g(s(Rk(u)),s(Rk(v))),k≥0 and|Rk(u)|,|Rk(v)|>0g(D1,D2)≥0fk(u,v);

对于每一个k计算出两个顶点之间的一个距离,通过所述顶点之间的有序度序列距离来构建一个带权层次图,用于后续的随机游走;

定义在某一层k中两个顶点的边权为所述边权都小于1,当且仅当距离为0的是时候,边权为1;

通过有向边将属于不同层次的同一顶点连接起来,即对每个顶点,都会与其对应的相同的上层顶点以及下层顶点相连,得到带权层次图;

基于随机游走的方式在所述带权层次图中进行采样顶点序列,选择每一个顶点为起始点,做随机游走得到点的序列,然后将所述序列视为句子,用word2vec学习,得到所述每一个顶点的表示嵌入特征向量,挖掘出每个顶点在其二度网络中的结构,并生成所述嵌入特征向量,即得到识别多点一线诈骗模式结构;利用改进的smote过采样方法Borderline-SMOTE平衡所述特征样本数据集具体如下:

将特征样本数据集按照预设比例划分为训练集和测试集,测试集不变;

基于Borderline-SMOTE过采样技术,操作训练集,将训练集中少数的诈骗样本类分为3类,分别为Safe、Danger和Noise,其中,Safe类为样本周围一半以上均为少数类样本,Danger类为样本周围一半以上均为多数类样本,视为在边界上的样本,Noise类为样本周围均为多数类样本,视为噪音;

对Danger类的少数类进行过采样,采用K近邻方法随机选择少数类样本,进行少数样本的过采样;基于多源特征数据,构建包括boosting和bagging的多种不同集成学习组合,并采用分配权值的方式,构建正常、诈骗、推销识别的分类模型,结合黑白名单机制,识别诈骗号码具体如下:

分别构建正常和诈骗,正常和推销,推销和诈骗的二分类模型,其中的单个二分类模型分别使用基于boosting和bagging的集成学习算法进行组合学习,最终组合学习结果以概率输出;综合boosting和bagging集成学习算法中的优势,选取不同模型进行集成;

将所述概率进行组合,网格搜索法进行权值匹配,构建三分类模型;

在黑白名单中进行白名单过滤和黑名单匹配,将剩余不可识别号码,采用三分类识别模型识别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110138462.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top