[发明专利]一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法有效

专利信息
申请号: 201810453513.6 申请日: 2018-05-14
公开(公告)号: CN108764537B 公开(公告)日: 2021-11-23
发明(设计)人: 傅晨波;郑永立;赵明浩;宣琦 申请(专利权)人: 浙江工业大学
主分类号: G06Q10/04 分类号: G06Q10/04;G06Q50/00;G06K9/62
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 tradaboost 算法 社区 标签 发展趋势 预测 方法
【说明书】:

一种基于A‑TrAdaboost算法的多源社区标签发展趋势预测方法,包括以下步骤:(1)构建问答社区中的标签网络;(2)计算源领域社区和目标领域社区结构的向量表征(3)计算源领域与目标领域之间的结构相似性;(4)构建基于A‑TrAdaboost算法的多源社区标签流行性预测模型。本发明利用网络图表征的方法,得到各个网络的向量表征,进而计算网络之间的相似性,作为不同问答社区之间的领域距离,并将网络结构之间的相似性作为多源迁移学习算法TrAdaboost的初始权重,在进行跨社区预测新标签流行性问题时,能够较好的避免多源迁移中的负迁移问题,提高模型的训练时间和精度。

技术领域

本发明涉及数据挖掘、图结构分析技术,特别是涉及一种基于A-TrAdaboost 算法的多源社区标签发展趋势预测方法。

背景技术

当前随着移动互联网和智能设备的广泛普及,改变了人们的生活方式,人们 更倾向于在网络上发表自己看法和搜集自己需要的信息,因此在线问答社区变得 越来越活跃和流行。由于问答社区中的帖子数量巨大,用户在问答社区中获取的 信息主要根据问题答案的标签来进行筛选和推荐,随着时间的推移,标签的数量 也越来与巨大,问答社区中的标签研究日益成为关注的热点。

傅晨波等人(见文献[1]Fu C,Zheng Y,Li S,et al.Predicting the popularityof tags in StackExchange QA communities[C]//Complex Systems and Networks(IWCSN),2017International Workshop on.IEEE,2017:90-95.即傅晨波,郑永立,李 诗迪.预测StackExchange问答社区标签流行性[C]//复杂的系统和网络 (IWCSN),2017国际研讨会.IEEE,2017:90-95。)已经研究了问答社区中新标签未 来的流行性发展趋势预测,但是其预测模型仅根据单个社区中标签数据来进行模 型构建。在这种情况下,当在一些数据量较小的社区或者新出现的社区中使用模 型时,由于标记数据样本较少,会使得训练后的模型并不理想。迁移学习从一个 相关并同时拥有丰富训练样本的领域中训练模型,并分享到目标领域。利用迁移 学习可以解决目标领域训练数据较少的缺陷。因此我们利用迁移学习的思路在其 他较大社区中进行模型训练,然后再迁移到目标社区,以提高预测模型的精度。

单源迁移时常常会遇到负迁移的状况,使得迁移过来的效果并不好。为了解 决这一问题,其中一种方法是设置不同的样本权重,通过设置不同样本之间的权 重,选择出对目标任务有帮助的样本,提高迁移学习的效果。TrAdaboost(见文 献[2]Dai W,Yang Q,XueG R,et al.Boosting for transfer learning[C]//International Conference onMachine Learning.ACM,2007:193-200.即戴文渊,杨强,薛贵荣,俞 勇.迁移学习集成[C]//国际机器学习会议.ACM,2007:193-200.)方法利用迭代更新 权重的方法,通过对每次训练的模型在目标领域上的分类效果,计算误差,反馈 更新样本的权重,得出最后的分类模型。另外一种方法是多源迁移的模型框架。 已有的多源迁移学习方法已经很多,目前比较常用的迁移学习方法是根据不同领 域之间的特征分布的距离作为其衡量领域之间的相似性,进而对不同领域构建的 基分类器进行加权。在使用迁移学习的方法来预测问答社区标签流行性发展趋势 的预测问题中,根据特征分布之间的差异性来衡量不同领域之间的相似性大小, 不能取得较好的迁移提升效果。

发明内容

为了解决跨社区标签流行性的预测问题,为了较好的衡量涉及网络结构的不 同领域之间的差异,和改善TrAdaboost在在具有负迁移数据源上的迁移效果的 鲁棒性,本发明提出一种基于网络结构相似性的A-TrAdaboost算法来预测在线 问答社区中新标签在未来的流行性发展趋势。

本发明解决其技术问题所采用的技术方案如下:

一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法,包括如下步 骤:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810453513.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top