[发明专利]一种APP软件用户评论模式识别方法有效
申请号: | 201610613664.4 | 申请日: | 2016-08-01 |
公开(公告)号: | CN106227720B | 公开(公告)日: | 2019-02-05 |
发明(设计)人: | 姜瑛;冉猛;向祺鑫;李凌宇;丁家满;汪海涛;刘英莉 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种APP软件用户评论模式识别方法,属于APP软件用户行为分析领域。本发明首先根据用户对APP软件的评论特征将用户评论信息分为三类;然后通过计算每类用户评论信息的频率来选择需要分析的类别;最后对需要分析对应类户评论信息中分词之后的用户评论信息的词性组合,选出词性组合模板,确定APP软件用户的评论模式。本发明有助于分析APP软件用户侧重于评价APP软件的哪些特征;有助于分析APP软件用户发表评论信息的表达形式;有助于分析APP软件用户行为。 | ||
搜索关键词: | 一种 app 软件 用户 评论 模式识别 方法 | ||
【主权项】:
1.一种APP软件用户评论模式识别方法,其特征在于:首先根据用户对APP软件的评论特征将用户评论信息分为三类;然后通过计算每类用户评论信息的频率来选择需要分析的类别;最后对需要分析对应类别评论信息中分词之后的用户评论信息的词性组合,选出词性组合模板,确定APP软件用户的评论模式;所述方法的具体步骤如下:Step1、输入n条分词之后的APP软件用户评论信息Cut_Comment;Step2、根据用户对APP软件的评论特征将n条Cut_Comment分为Whole_List、Attribute_List和Other_List三类:2.1)初始化数据:i=1,countWL=0,countAL=0,countOL=0;其中,i表示第i条Cut_Comment,countWL、countAL、countOL分别表示APP软件综合特征、属性特征和其它类特征的用户评论信息条数;2.2)判断i是否小于或等于n:如果是,则提取Cut_Commenti中的特征情感词对fi ={Wh, Wd, Wa},i = 1,2, ... ,n ,Wh表示评论用户关注的APP软件特征词,Wa为修饰特征Wh的情感词,Wd为修饰情感词Wa的副词;否则,执行Step3;2.3)判断fi中Wh是否为空:如果是,则将fi存入Whole_List中,countWL++,i++,执行2.2);否则,执行2.4);2.4)判断fi中Wh是否为该APP软件的软件名称:如果是,则将fi存入Whole_List中,countWL++,i++,执行2.2);否则,执行2.5);2.5)判断fi中Wh是否为该APP软件信息特征:如果是,则将Cut_Commenti存入Attribute_List中,countAL++,i++,执行2.2);否则,将Cut_Commenti存入Other_List中,countOL ++,i++,执行2.2);Step3、根据公式P(ci)=countci/n计算每类用户评论信息的频率;式中,P(ci)表示ci类用户评论信息在n条Cut_Comment中出现的频率;countci表示ci类Cut_Comment的条数,ci为Whole_List、Attribute_List或Other_List,Whole_List类出现的条数为countWL,Attribute_List类出现的条数为countAL,Other_List类出现的条数为countOL;如果Whole_List类用户评论信息在n条Cut_Comment中出现的频率最大,则执行步骤Step4;如果Attribute_List类用户评论信息在n条Cut_Comment中出现的频率最大,则执行步骤Step5;如果Other_List类用户评论信息在n条Cut_Comment中出现的频率最大,则执行步骤Step6;Step4、对Whole_List中f的词性组合进行处理,词性组合处理过程如下:4.1) 初始化Whole_List中的数据:j=1,countWLN =0,countWLP=0;其中,j表示Whole_List类中的第j条用户评论,countWLN和countWLP分别表示Whole_List类用户评论信息中使用网络情感词汇和未使用网络情感词汇的评论条数;4.2)判断j是否小于或等于countWL:如果是,则执行4.3);否则,执行4.4);4.3)判断fj中的Wa是否为网络情感词:如果是,则将fj对应的词性组合存入Whole_List_Net中,countWLN++,j++,执行4.2);否则将fj对应的词性组合存入Whole_List_Pub中,countWLP ++,j++,执行4.2);其中,Whole_List_Net和Whole_List_Pub分别表示Whole_List类用户评论信息中使用网络情感词汇和未使用网络情感词汇的词性组合;4.4) 输出APP软件用户的评论模式:根据公式P(n)=countWLN/countWL和P(p)=countWLP/countWL分别计算Whole_List_Net和Whole_List_Pub出现的频率P(n)和P(p),取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合,输出APP软件用户的评论模式{综合类,词性组合};其中该类用户评论信息的词性组合为:“{[ ]+a_n+[ ]}”或“{[n]+[d]+a|v}”,其中,“a_n”表示网络情感词,n表示名词,d表示副词,a表示形容词,v表示动词;[ ]表示该项为可选项且不确定项;Step5、对Attribute_List中Cut_Comment的词性组合进行处理,词性组合处理过程如下:5.1)去掉Attribute_List中每条Cut_Comment的词,只保留对应的词性;5.2)提取词性中的n、v、vn、d和a,其中,vn表示动名词;5.3)选取候选词性组合模板集:先将Attribute_List中Cut_Comment的词性组合分为N1类;再根据公式P(ai)=countai/countAL计算每种词性组合的频率,并将P(ai)大于或等于阈值1/N1的词性组合存入候选词性组合模板集中;式中,N1表示Attribute_List类用户评论信息中Cut_Comment的词性组合的种类;P(ai)表示第ai类词性组合在countAL条评论中出现的频率,countai表示第ai类词性组合的条数;5.4)提取词性组合模板集:如果候选词性组合模板的个数大于或等于2,则计算候选词性组合模板之间的相似度,并将相似度大于阈值0.5的候选词性组合模板进行合并;否则,将候选词性组合模板集作为词性组合模板集;5.5)将每条Cut_Comment与每种词性组合模板进行匹配,并记录每种词性组合模板的次数:计算每条Cut_Comment的词性组合与每种词性组合模板的相似度,并将相似度大于阈值0.5的词性组合存入对应的词性组合模板集中,次数加1;5.6)输出APP软件用户的评论模式:根据公式P(a)=counta/countAL计算每种词性组合模板出现的频率,取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合,输出APP软件用户的评论模式{属性类,词性组合};式中,P(a)表示第a类词性组合模板在countAL条Cut_Comment中出现的频率,counta表示第a类词性组合模板的条数;Step6、对Other_List中Cut_Comment的词性组合进行处理,词性组合处理过程如下:6.1)去掉Other_List中每条Cut_Comment的词,只保留对应的词性;6.2)提取词性中的n、v、vn、d和a;6.3)选取候选词性组合模板集:先将Other_List中Cut_Comment的词性组合为N2类;再根据公式P(oi)=countoi/countOL计算每种词性组合的频率,并将P(oi)大于或等于阈值1/N2的词性组合存入候选词性组合模板集中;式中,N2表示Other_List类用户评论信息中Cut_Comment的词性组合的种类;P(oi)表示第oi类词性组合在countOL条评论中出现的频率,conutoi表示第oi类词性组合的条数;6.4) 提取词性组合模板集:如果候选词性组合模板的个数大于或等于2,则计算候选词性组合模板之间的相似度,并将相似度大于阈值0.5的候选词性组合模板进行合并;否则,将候选词性组合模板集作为词性组合模板集;6.5)将每条Cut_Comment的词性组合与每种词性组合模板进行匹配,并记录每种词性组合模板的次数:计算每条分词之后的用户评论信息的词性组合与每种词性组合模板的相似度,并将相似度大于阈值0.5的词性组合存入对应的词性组合模板集中,次数加1;6.6)输出APP软件用户的评论模式:根据公式P(o)=counto/countOL计算每种词性组合模板出现的频率,取频率大者对应的词性组合进行合并作为该类用户评论信息的词性组合,输出APP软件用户的评论模式{其它类,词性组合};式中,P(o)表示第o类词性组合模板在countOL条Cut_Comment中出现的频率,counto表示第o类词性组合模板的条数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610613664.4/,转载请声明来源钻瓜专利网。
- 上一篇:中文分词歧义消除方法和系统
- 下一篇:汉语韵律层级结构预测系统