[发明专利]一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法有效
申请号: | 201810453513.6 | 申请日: | 2018-05-14 |
公开(公告)号: | CN108764537B | 公开(公告)日: | 2021-11-23 |
发明(设计)人: | 傅晨波;郑永立;赵明浩;宣琦 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q50/00;G06K9/62 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 tradaboost 算法 社区 标签 发展趋势 预测 方法 | ||
一种基于A‑TrAdaboost算法的多源社区标签发展趋势预测方法,包括以下步骤:(1)构建问答社区中的标签网络;(2)计算源领域社区和目标领域社区结构的向量表征(3)计算源领域与目标领域之间的结构相似性;(4)构建基于A‑TrAdaboost算法的多源社区标签流行性预测模型。本发明利用网络图表征的方法,得到各个网络的向量表征,进而计算网络之间的相似性,作为不同问答社区之间的领域距离,并将网络结构之间的相似性作为多源迁移学习算法TrAdaboost的初始权重,在进行跨社区预测新标签流行性问题时,能够较好的避免多源迁移中的负迁移问题,提高模型的训练时间和精度。
技术领域
本发明涉及数据挖掘、图结构分析技术,特别是涉及一种基于A-TrAdaboost 算法的多源社区标签发展趋势预测方法。
背景技术
当前随着移动互联网和智能设备的广泛普及,改变了人们的生活方式,人们 更倾向于在网络上发表自己看法和搜集自己需要的信息,因此在线问答社区变得 越来越活跃和流行。由于问答社区中的帖子数量巨大,用户在问答社区中获取的 信息主要根据问题答案的标签来进行筛选和推荐,随着时间的推移,标签的数量 也越来与巨大,问答社区中的标签研究日益成为关注的热点。
傅晨波等人(见文献[1]Fu C,Zheng Y,Li S,et al.Predicting the popularityof tags in StackExchange QA communities[C]//Complex Systems and Networks(IWCSN),2017International Workshop on.IEEE,2017:90-95.即傅晨波,郑永立,李 诗迪.预测StackExchange问答社区标签流行性[C]//复杂的系统和网络 (IWCSN),2017国际研讨会.IEEE,2017:90-95。)已经研究了问答社区中新标签未 来的流行性发展趋势预测,但是其预测模型仅根据单个社区中标签数据来进行模 型构建。在这种情况下,当在一些数据量较小的社区或者新出现的社区中使用模 型时,由于标记数据样本较少,会使得训练后的模型并不理想。迁移学习从一个 相关并同时拥有丰富训练样本的领域中训练模型,并分享到目标领域。利用迁移 学习可以解决目标领域训练数据较少的缺陷。因此我们利用迁移学习的思路在其 他较大社区中进行模型训练,然后再迁移到目标社区,以提高预测模型的精度。
单源迁移时常常会遇到负迁移的状况,使得迁移过来的效果并不好。为了解 决这一问题,其中一种方法是设置不同的样本权重,通过设置不同样本之间的权 重,选择出对目标任务有帮助的样本,提高迁移学习的效果。TrAdaboost(见文 献[2]Dai W,Yang Q,XueG R,et al.Boosting for transfer learning[C]//International Conference onMachine Learning.ACM,2007:193-200.即戴文渊,杨强,薛贵荣,俞 勇.迁移学习集成[C]//国际机器学习会议.ACM,2007:193-200.)方法利用迭代更新 权重的方法,通过对每次训练的模型在目标领域上的分类效果,计算误差,反馈 更新样本的权重,得出最后的分类模型。另外一种方法是多源迁移的模型框架。 已有的多源迁移学习方法已经很多,目前比较常用的迁移学习方法是根据不同领 域之间的特征分布的距离作为其衡量领域之间的相似性,进而对不同领域构建的 基分类器进行加权。在使用迁移学习的方法来预测问答社区标签流行性发展趋势 的预测问题中,根据特征分布之间的差异性来衡量不同领域之间的相似性大小, 不能取得较好的迁移提升效果。
发明内容
为了解决跨社区标签流行性的预测问题,为了较好的衡量涉及网络结构的不 同领域之间的差异,和改善TrAdaboost在在具有负迁移数据源上的迁移效果的 鲁棒性,本发明提出一种基于网络结构相似性的A-TrAdaboost算法来预测在线 问答社区中新标签在未来的流行性发展趋势。
本发明解决其技术问题所采用的技术方案如下:
一种基于A-TrAdaboost算法的多源社区标签发展趋势预测方法,包括如下步 骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810453513.6/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理