[发明专利]基于机器学习的移动互联网用户评论挖掘方法有效
申请号: | 201810233877.3 | 申请日: | 2018-03-21 |
公开(公告)号: | CN108520012B | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 张莉;黄新越;蒋竞 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 祗志洁 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于机器学习的移动互联网用户评论挖掘方法,属于需求工程与数据挖掘领域。本发明包括:步骤一关注领域与标注数据的选择、步骤二问题种类的制定、步骤三对应用程序分析比较的思路与数据、步骤四对步骤二和三中的数据进行预处理、步骤五为应用程序类型设置属性、步骤六对每个问题种类建立一个二元分类器。本发明方法通过数据属性的添加丰富了分类器使用的特征,通过代价敏感元分类器一定程度上解决了存在的数据不平衡问题,通过支持向量机的参数合理配置优化了分类器的效果,提高了评论分类的准确性,能灵活满足使用者的个性化需要,数据挖掘效果优于当前最好的用户评论分类方法。 | ||
搜索关键词: | 基于 机器 学习 移动 互联网 用户 评论 挖掘 方法 | ||
【主权项】:
1.一种基于机器学习的移动互联网用户评论挖掘方法,包括如下步骤:步骤一:对待研究领域的应用程序的用户评论进行抽样;步骤二:确定用户评论中包含的问题种类,人工对抽样评论进行标注,并对标注结果进行检查验证;步骤三:获取待分析的应用程序的评论数据集;步骤四:对步骤二验证后的标注评论数据集和步骤三获得的评论数据集进行预处理,预处理包括:分词,采用矢量空间模型与TF‑IDF算法来建立词频向量;TF表示词频,IDF表示逆向文件频率;其特征在于,步骤五:设置一个标识应用程序类型的属性,该属性值代表两类应用程序,一类应用程序仅由开发者提供服务和内容,另一类应用程序中用户存在着与其他人或企业的联系与交流;为验证后的标注的评论数据集和步骤四获得的用户评论数据集中的每条评论的词频向量中添加该标识应用程序类型的属性;步骤六:对每个问题种类建立一个二元分类器,将步骤二验证后的评论数据集作为训练集,将步骤三获取的用户评论数据集作为预测集,利用每个问题种类的二元分类器进行分类;所述的步骤六中,所建立的二元分类器使用线性支持向量机,并添加有代价敏感元分类器,通过为代价敏感元分类器设置不同的代价矩阵取值来进行分类,并选择效果最优的代价矩阵。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810233877.3/,转载请声明来源钻瓜专利网。