[发明专利]一种移动应用数据处理方法在审
申请号: | 201810741622.8 | 申请日: | 2018-07-09 |
公开(公告)号: | CN109145186A | 公开(公告)日: | 2019-01-04 |
发明(设计)人: | 邓春林;王再超;谢言 | 申请(专利权)人: | 湖北中医药大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F17/27;G06Q30/02 |
代理公司: | 北京天盾知识产权代理有限公司 11421 | 代理人: | 杨本官 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于移动应用领域,尤其涉及一种移动应用数据处理方法。本发明的一种移动应用数据处理方法,能够有效处理数据量庞大的评论数据,压缩无效数据,合理且迅速的甄别对移动应用的评价以及分析有用的数据并进行相应处理,本发明充分结合中文的语法特点,针对性地对评论数据进行处理和存储,能够大大加快中文评论数据的收集处理速度,该方法再现方便,工具简单,具有良好的应用前景。 | ||
搜索关键词: | 移动应用 评论数据 数据处理 收集处理 无效数据 有效处理 语法特点 数据量 中文 存储 压缩 应用 分析 | ||
【主权项】:
1.一种移动应用数据处理方法,其特征在于,其含有如下步骤,步骤A、用于获取移动应用相关数据的步骤,包括获取软件标志数据,所述软件标志数据包括软件名称、软件分类以及软件简介;步骤B、用于从用户评论数据中获取评论相关的元素数据的步骤,所述元素数据包括用户评论、软件版本、评论端口、评论时间、用户ID;具体步骤如下:一、接入评论端口,获取网页数据,搜索需要抓取数据的移动应用的标志数据,对标志数据相应的网页进行抓取;在抓取数据时需要对网页的加载方式进行判断,并根据不同加载方式使用不同的分析方法抓取数据,具体是指采用Jsoup分析静态加载方式的网页标签数据,采用HttpUnit抓取动态加载方式的网页标签数据;二、判断该网页数据是否含有的标志数据相应的移动应用;若有抓取各网页并存入相应数据库;所述数据库是根据各移动应用作为分类因素分别建立的与各移动应用相应的数据库;三、判断是否还有后续网页,若有则跳转至步骤二,若无则跳转至步骤4;四、将所有以抓取的网页转换为文本格式,定位和获取评论数据相对应的元素数据;所述定位和获取评论数据相对应的元素数据具体包括,步骤4.1、,对用户评论数据进行分词和词性标注处理,提取名词n、动词v以及形容词a构成关键词集;定义移动应用对应的第i条用户评论的关键词集Ki,Ki={w0/f0,w1/f1......,wk/fk},其中,k=0,1,2......K‑1,K为第i条评论的分词数,wk为评论中第ki个分词,fk为wk的词性;其中分词工具是指用于进行分词、词性标注、词性识别、字词识别等功能的应用工具;步骤4.2、提取关键词集Ki中仅有形容词a的评论数据,将原关键词集中所有的wk存入优化后的关键词集KNewi,其中优化后的关键词集KNewi定义为:KNewi={w0,w1......wj},其中j=0,1,2......J‑1,J为第i条评论优化后的关键词数,wj为评论优化关键词集中的第J个词;步骤4.3、提取关键词集Ki中含有{n+a}、{v+a}、{n+v}、{n+v+a}的评论数据,将原关键词集中非a的wk相应的词性存入优化关键词集KNewi,相应的词性存入优化关键词性集FNewi,其中优化后的关键词集FNewi定义为:FNewi={f0、f1......fj},其中,fj为评论优化关键词集中的wj的词性;步骤C、用于提取关键词集和计算关键词集中元素对移动应用评分权重的步骤,其具体步骤包括:步骤1、对每个移动应用建立属于自己的特征词库,具体是指根据特征词的词性建立特征词库,包括动词特征库、名词特征库、形容词特征库;步骤2、对每个移动应用抽取关键词集中的关键词wj,wj在对应词性fj的特征库中的频数Tj、包含有wj的文本数Nj以及文本总数N;步骤3、根据公式①计算各条用户评论与移动应用评分的权重得分S,并判断其得分是否大于阈值α,若大于阈值则判断为有效评论,否则判定为无用评论;
其中mj是指wj对应词性fj特征库中的平均特征频数,J为第i条评论优化后的关键词数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北中医药大学,未经湖北中医药大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810741622.8/,转载请声明来源钻瓜专利网。