[发明专利]一种基于多源信息的用户划分方法及系统有效
申请号: | 202110803217.6 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113536184B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 段意强;袁浩亮;符政鑫;许斯滨;吕应龙 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/33;G06F16/35;G06F16/55;G06F16/583;G06K9/62 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510090 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 用户 划分 方法 系统 | ||
1.一种基于多源信息的用户划分方法,其特征在于,包括以下步骤:
S1:采集图像数据和文本数据;
S2:分别提取图像数据和文本数据的内在特征;
S3:通过自表示学习和图学习相结合的方法去计算图像特征的相似度矩阵和文本特征的相似度矩阵;
S4:引入秩约束使得相似度矩阵具有理想的性质并获取相似度矩阵对应的划分矩阵;
S5:采用自加权融合技术对划分矩阵进行融合形成统一的划分矩阵;
S6:在统一的划分矩阵的基础上引入旋转矩阵来对用户进行划分;
所述步骤S1的过程是:通过人工现场对用户拍摄图像数据和人工现场对用户专门撰写相关文本数据;通过相关APP直接从后台服务器获取用户注册APP时上传的图像数据和填报的文本数据;通过相关APP直接从后台服务器获取用户数据自动生成相应的图像数据和文本数据;
步骤S2中,提取的图像数据的内在特征包括:色彩纹理矩,局部二值模式,尺度不变特征变换,方向梯度直方图,全局特征信息以及通过深度学习模型提取图像特征获得深度特征;
提取的文本数据的内在特征包括:通过深度学习模型提取文本数据的内在特征;将从图像数据提取的特征以及从文本数据提取的特征,统称为多视图特征X={X1,...,Xv,...,XV},其中代表第v个视图的特征,n表示用户数量,dv表示第v个视图的特征维度;
步骤S3中,通过自表示学习和图学习相结合的方法去计算图像特征的相似度矩阵和文本特征的相似度矩阵,其数学公式定义为:
其中表示第v个视图的原始特征,Sv是第v个视图的相似度矩阵,表示第v个视图中的第i个用户的特征,是Sv的第i列第j行的元素,L是所有元素全为1的列向量,(·)T表示矩阵的转置,diag(·)表示矩阵的对角元素,表示矩阵的Frobenius范数的平方,表示向量的L2范数的平方,λ1、λ2是一个平衡参数;
步骤S4具体为:在获取图像数据的相似度矩阵和文本数据相似度矩阵的时候,通过引入秩约束使得步骤S3获的相似度矩阵具有理想的性质并获取相似度矩阵对应的划分矩阵:
其中,是Sv的拉普拉斯矩阵,Dv是Sv的度矩阵,其中第i个对角元素为c是聚类簇的个数即用户类别个数,rank(·)表示矩阵的秩;
由于引入秩约束会使得上述公式变得难以求解,根据Ky Fans定理,得到其中是的第i小的特征值,的前c小的特征值均为0,即使得成立,因此,问题转化为如下形式:
其中表示第v个视图的划分矩阵,的单位矩阵;
步骤S5中,采用自加权融合技术对划分矩阵进行融合获取统一的划分矩阵,形式如下:
其中表示自适应权重,用于区分不同视图的重要程度;
步骤S6中,通过引入旋转矩阵来建立统一的划分矩阵与最后用户划分标签之间的联系:
其中表示旋转矩阵,γ为模糊系数,行向量,其中只有第k个元素为1其余元素为0,fi,:为F的第i行,对应第i个样本的一致表示,yik表示第i个样本属于第k个簇的概率,R则建立了标签Y和一致表示F之间合理的关系,如果样本i在位置k显示出突出的结构,则对应yik有一个较大的概率值,表示样本i较大概率属于第k个簇;
通过将公式(1-3),(1-4),(1-5)集成在一起,得到目标函数:
其中表示用户划分标签聚类,yi,:是Y的第i行,yik是yi,:第k个元素;
步骤S6中,给定用户划分的类别个数,通过在更具鉴别信息的一致的划分矩阵上引入旋转矩阵来得到用户划分结果;
所述图像数据包括:用户一天的步数曲线图,用户24小时用电曲线图,用户1个月用电曲线图,用户1个季度用电曲线图,用户1年用电曲线图,用户消费曲线图;所述文本数据包括学生,老师,白领,金领,老板,汽车,飞机,美食文本标签。
2.一种应用权利要求1所述的基于多源信息的用户划分方法的系统,其特征在于,包括数据获取模块、特征提取模块、相似度矩阵学习模块、秩约束模块、自加权融合模块和用户划分模块;所述数据获取模块包括图像数据获取子模块和文本数据获取子模块;所述特征提取模块包括图像特征提取子模块和文本特征提取子模块;所述数据获取模块与所述特征提取模块连接,所述特征提取模块与所述相似度矩阵 学习模块连接,所示相似度矩阵 学习模块与所述秩约束模块连接,所述秩约束模块与自加权融合模块连接,所述自加权融合模块与用户划分模块连接;
所述数据获取模块包括图像数据获取子模块和文本数据获取子模块;
所示图像数据获取子模块用于获取用户的图像数据;
所示文本数据获取子模块用于获取用户的文本数据;
所述特征提取模块包括图像特征提取子模块和文本特征提取子模块;
所述图像特征提取子模块用于提取图像数据的原始特征;
所述文本特征提取子模块用于提取文本数据的原始特征;
所述相似度矩阵学习模块用于计算每个视图高质量的相似度矩阵;
秩约束模块用于对每个视图高质量的相似度矩阵施加秩约束,使得相似度矩阵具有理想的性质,同时获取相似度矩阵对应的划分矩阵;
所述自加权融合模块用于将每个视图相似度划分矩阵对应的划分矩阵进行自加权方式进行融合形成统一的划分矩阵;
所述用户划分模块用于对用户进行划分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110803217.6/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置