[发明专利]一种基于极差的电商水军识别方法有效
申请号: | 202010065827.6 | 申请日: | 2020-01-20 |
公开(公告)号: | CN111275526B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 孙宏亮;梁楷平;卜湛;曹杰 | 申请(专利权)人: | 南京财经大学 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06Q30/02 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 葛潇敏 |
地址: | 210023 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 极差 商水 识别 方法 | ||
1.一种基于极差的电商水军识别方法,其特征在于包括如下步骤:
步骤1,定义三元组数据结构G={i,j,k},分别表征用户、商品和评分;
步骤2,在初始状态下,将各用户的信誉初始化为相同,并基于此计算初始状态下的商品质量;
根据下式计算商品质量:
上述公式中,Qα表示商品α的质量,Uα表示购买α商品的用户集合,riα表示用户i对商品的评分;Ri表示用户i的信誉,各用户的信誉初始化为1,则此时计算得到的商品质量即为初始状态下的商品质量;
步骤3,根据信息熵理论公式,计算各个用户评分与商品质量的偏差;具体过程是:
步骤31,假设用户i对m个商品的评分为Gi={gi1,gi2...gim},m个商品质量Q={q1,q2...qm},则两者向量的差值的绝对值为:
Di(Gi,Q)=|G-Q|={di1,di2...dim}
其中,dim指用户购买过的商品与该商品质量的差值,Di(Gi,Q)表示用户对购买过商品的评分与商品质量的差值;
步骤32,对各个用户进行如步骤31的差值计算,然后对差值进行分类处理,根据评分等级1-n划分出n个区间,根据dim值的大小将其归到对应的区间,再统计各个用户每个区间的平均差值和每个区间的占比大小,占比大小计算方式如下:
其中,p(nij)表示用户i差值区间j的占比大小,Lij表示用户i区间j的差值个数,Li表示用户i的评分差值总个数;
步骤33,根据信息熵的计算方式,根据下式计算用户评分与商品质量的偏差:
其中,DHi表示用户i的偏差,p(nij)表示区间j的占比大小,表示区间j的平均差值;DHi越大,则该用户的行为越偏离商品质量,信誉越低;
步骤4,计算各用户的评分极差,从而区分正常用户和水军的评分行为;
统计各个用户对每一个评分等级的评价次数,接着让评分等级次数最多的减去评分最少的,若用户未打过某个评分,则不将其算入极差的计算范围之中;最后将其进行归一化,计算公式如下:
其中,ζi表示用户i的评分极差,rmax表示评分次数最多的,rmin表示评分次数最少的;如果ζi越小,则表示该用户不具备明显的评分偏好,其信誉低于拥有明显评分偏好的用户;
步骤5,基于步骤3得到的偏差和步骤4得到的评分极差,计算得到各个用户的用户信誉;
根据下式计算用户i的信誉:
其中,Ri表示用户i的信誉,ζi表示该用户的偏好显著程度,DHi表示该用户的评分与商品质量的偏差;
步骤6,将步骤5计算得到的各用户信誉代入商品质量的计算公式中,得到对应的商品质量,再重复步骤3-5,得到新的用户信誉;
步骤7,计算用户信誉变化总和,若大于信誉变化阈值,则将新的用户信誉代入商品质量的计算公式中,得到对应的商品质量,重复步骤3-6,直至用户信誉变化总和小于信誉变化阈值;若小于信誉变化阈值,则停止迭代;
步骤8,对得到的用户信誉进行排序,选择信誉最低的前N个用户作为水军,N为设定值。
2.如权利要求1所述的基于极差的电商水军识别方法,其特征在于:所述步骤7中,用户信誉变化总和Δ的计算公式是:
其中,Ri'表示迭代计算中新的用户信誉,|U|表示用户集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京财经大学,未经南京财经大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010065827.6/1.html,转载请声明来源钻瓜专利网。