[发明专利]一种跨领域垃圾评价识别的方法有效

专利信息
申请号: 201710117088.9 申请日: 2017-03-01
公开(公告)号: CN106960012A 公开(公告)日: 2017-07-18
发明(设计)人: 李维华;王顺芳 申请(专利权)人: 云南大学
主分类号: G06F17/30 分类号: G06F17/30;G06N3/12;G06Q30/02
代理公司: 云南派特律师事务所53110 代理人: 董建国
地址: 650091*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开一种跨领域垃圾评价的识别方法。设计遗传算法筛选源评论的关键特征子集,并基于该特征子集定义评论的领域相关特征和领域无关特征;其次,根据领域无关特征与领域相关特征共同出现的频度定义相关矩阵,并基于拉普拉斯特征映射将领域相关特征映射为一个新的表示;最后,使用源数据与映射之后领域相关特征训练分类器,并用该分类器识别出目标领域的垃圾评论。
搜索关键词: 一种 领域 垃圾 评价 识别 方法
【主权项】:
跨领域垃圾评价识别的方法,其特征在于包括以下步骤:步骤1:对评论进行初始特征定义X=(x1,x2,…,xq),其中,特征包括源域和目标域评论中词频大于预先设定阀值ε的词集W、积极情感词汇与总词汇量的比值、消极词汇量与总词汇量的比值、评论的长度、评论者的信用等级、重复或相似评论数量;词集W来源于源域和目标域评论中词频大于预先设定阀值ε的unigrams(单word)和bigrams(双word);源领域还包括是否为垃圾评论的类别标签y,根据特征集对m条源评论进行特征化,得到源领域评论集DS=;步骤2:使用遗传算法筛选评论的特征定义X的关键特征Z=(z1,z2,…,zr)⊆X;步骤3:定义WS=Z∩W,WI=W‑WS,XI=(Z‑WS)∪WI,其中,WS是领域相关特征,XI领域无关特征;使用X'=WS∪XI=(x'1,x'2,…,x'r)⊆X定义评论的特征;按照特征集X'将源领域评论和目标领域评论进行特征化得到D'S=和D'T=;步骤4:定义‖WS‖×‖XI‖的相关矩阵R,rij是特征Ri∈WS与Rj∈XI共同出现的评论数;步骤5:构造矩阵;;L=B‑A;计算L的最小α个非零特征值对应的特征向量v1,v2,…,vα,并组成矩阵F=[v1,v2,…,vα];U=F[1:‖WS‖,:],即F中第1到‖WS‖行定义为U;定义映射函数φ(t)=tU将领域相关特征t映射为tU;步骤6:定义函数识别出评论x中的领域相关特征,将领域相关特征t映射为tU合并到评论定义中,即D'S=;基于D'S训练分类器f;步骤7:基于f对目标评论D'T=的每一条评论预测是否为垃圾评论。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710117088.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top