[发明专利]一种跨领域垃圾评价识别的方法有效
申请号: | 201710117088.9 | 申请日: | 2017-03-01 |
公开(公告)号: | CN106960012A | 公开(公告)日: | 2017-07-18 |
发明(设计)人: | 李维华;王顺芳 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/12;G06Q30/02 |
代理公司: | 云南派特律师事务所53110 | 代理人: | 董建国 |
地址: | 650091*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种跨领域垃圾评价的识别方法。设计遗传算法筛选源评论的关键特征子集,并基于该特征子集定义评论的领域相关特征和领域无关特征;其次,根据领域无关特征与领域相关特征共同出现的频度定义相关矩阵,并基于拉普拉斯特征映射将领域相关特征映射为一个新的表示;最后,使用源数据与映射之后领域相关特征训练分类器,并用该分类器识别出目标领域的垃圾评论。 | ||
搜索关键词: | 一种 领域 垃圾 评价 识别 方法 | ||
【主权项】:
跨领域垃圾评价识别的方法,其特征在于包括以下步骤:步骤1:对评论进行初始特征定义X=(x1,x2,…,xq),其中,特征包括源域和目标域评论中词频大于预先设定阀值ε的词集W、积极情感词汇与总词汇量的比值、消极词汇量与总词汇量的比值、评论的长度、评论者的信用等级、重复或相似评论数量;词集W来源于源域和目标域评论中词频大于预先设定阀值ε的unigrams(单word)和bigrams(双word);源领域还包括是否为垃圾评论的类别标签y,根据特征集对m条源评论进行特征化,得到源领域评论集DS=;步骤2:使用遗传算法筛选评论的特征定义X的关键特征Z=(z1,z2,…,zr)⊆X;步骤3:定义WS=Z∩W,WI=W‑WS,XI=(Z‑WS)∪WI,其中,WS是领域相关特征,XI领域无关特征;使用X'=WS∪XI=(x'1,x'2,…,x'r)⊆X定义评论的特征;按照特征集X'将源领域评论和目标领域评论进行特征化得到D'S=和D'T=;步骤4:定义‖WS‖×‖XI‖的相关矩阵R,rij是特征Ri∈WS与Rj∈XI共同出现的评论数;步骤5:构造矩阵;;L=B‑A;计算L的最小α个非零特征值对应的特征向量v1,v2,…,vα,并组成矩阵F=[v1,v2,…,vα];U=F[1:‖WS‖,:],即F中第1到‖WS‖行定义为U;定义映射函数φ(t)=tU将领域相关特征t映射为tU;步骤6:定义函数识别出评论x中的领域相关特征,将领域相关特征t映射为tU合并到评论定义中,即D'S=;基于D'S训练分类器f;步骤7:基于f对目标评论D'T=的每一条评论预测是否为垃圾评论。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710117088.9/,转载请声明来源钻瓜专利网。
- 上一篇:分布式文件系统元数据管理系统及方法
- 下一篇:一表化审批系统及方法