[发明专利]一种面向用户行为分析的大众口碑情感分析方法有效
申请号: | 202010191851.4 | 申请日: | 2020-03-18 |
公开(公告)号: | CN111400496B | 公开(公告)日: | 2023-05-09 |
发明(设计)人: | 李慧;高超;张舒;樊宁;李子琦;杨玉 | 申请(专利权)人: | 江苏海洋大学;江苏省海洋资源开发研究院(连云港) |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/951;G06F40/242;G06F40/279;G06F40/205;G06F40/126;G06N20/00 |
代理公司: | 北京和联顺知识产权代理有限公司 11621 | 代理人: | 闫超良 |
地址: | 222005 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 用户 行为 分析 大众 口碑 情感 方法 | ||
1.一种面向用户行为分析的大众口碑情感分析方法,包括数据的收集模块、特征提取模块、机器学习模块、元分类器模块以及情感词典模块,其特征在于,所述数据的收集模块与特征提取模块单向连接,所述特征提取模块与机器学习模块单向连接,所述机器学习模块与元分类器模块单向连接,所述元分类器模块与情感词典模块单向连接,所述数据的收集模块包括数据收集以及预处理,所述机器学习模块包括学习模块以及分类模块,所述学习模块采用半监督学习,所述元分类器模块包括利益/风险分类器、信任/不信任服务分类器、信任/不信任约会者分类器以及正面社会影响/负面社会影响分类器四个基分类器;
所述数据收集在于采用爬虫软件获取评论数据,并使用深度收集策略来收集网站数据;
所述预处理通过删除重复、停用字、特殊字符以及对分词、否定的识别操作将汉语句子分隔成词语序列;
所述特征提取模块即为将非结构化数据进行分类,将其转化为结构化数据和适度的非结构化文本数据,并生成用于机器学习模型的特征集;
所述半监督学习为机器通过对少量有标注文本和大量无标注文本的情感识别来学习构建分类模型;
所述分类模块通过学习的结果对特征提取模块传递来的数据进行情感分类,并将分类结果传输至元分类器模块中
所述元分类器模块中每个基分类器都以四类特征中的一种为基础,并使用逻辑回归模型进行组合;
所述情感词典模块是机器学习和情感词典相结合,情感词典是包含众多情感词语的词汇库,每个情感词语表示其对应特征情感的程度,机器学习利用情感词典进行分类,同时情感词典通过机器分类得到进一步完善,并进一步对机器学习的分类结果进行修正;
所述一种面向用户行为分析的大众口碑情感分析方法为:
1)从ODS中获取数据;
2)通过特征提取将获取的非结构化文本数据转换为结构化数据;
3)然后分别从八个特征方面对个体的情感进行分类,分为利益/风险分类器、信任/不信任服务分类器、信任/不信任约会者分类器、正面社会影响/负面社会影响分类器;
4)将四个分类器的输出作为元分类器的输入特征;
5)建立的情感词典修正这四个分类器的错误预测结果;
6)将正确的结果导出。
2.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法,其特征在于,所述特征提取模块的工作步骤具体如下:
步骤一:首先在用户评论集合D中计算单词wi与wj的相似度Wi,j,采用公式来计算wi和wj的相似度,所述P(wi,wj)表示两个单词wi和wj同时出现的概率,所述P(wi)以及P(wj)分别表示评论中出现wi和wj的概率;
步骤二:将评论表示成一个由“词项-词项”组成的矩阵,其中每一行和每一列表示唯一的词项,矩阵中的值表示评论中每个单词对的相似度得分,之后通过公式计算得出单词wi的上下文相关度,所述n表示D中的词项数量;
步骤三:通过得到的单词wi的上下文相关度确定“词项-词项”矩阵是否为特征;
步骤四:重复步骤一至步骤三,提取用户评论集合D中所有特征组合为特征集传递至机器学习模块中。
3.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法,其特征在于,所述学习模块工作步骤具体如下:
步骤一:将随机抽取多个评论,并聘请3名有经验的标注者来对评论进行类别的标注;
步骤二:分别针对多个特性为每条评论进行编码;
步骤三:将编码好的多个评论分别采用四种机器学习算法来构建模型,并对比每种模型的性能,选择性能较好模型的机器学习算法,采用性能较好模型的机器学习算法制作多个分类器;
步骤四:首先使用少量带标注的训练样本对多个分类器进行训练,然后用所有训练样本集对训练后的分类器进行再训练;
步骤五:步骤四重复多次,得到效果最佳的分类器。
4.根据权利要求1所述的一种面向用户行为分析的大众口碑情感分析方法,其特征在于,所述分类模块工作步骤具体如下:
1)将特征提取模块提取的特性数据导入分类器内;
2)分类器通过特性数据对从ODS中获取的数据进行分类;
3)将分类的数据分别传递于元分类器的各个基分类器中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏海洋大学;江苏省海洋资源开发研究院(连云港),未经江苏海洋大学;江苏省海洋资源开发研究院(连云港)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010191851.4/1.html,转载请声明来源钻瓜专利网。