[发明专利]细粒度情感分析方法、装置、计算机设备及存储介质在审
| 申请号: | 201910796626.0 | 申请日: | 2019-08-27 |
| 公开(公告)号: | CN110516245A | 公开(公告)日: | 2019-11-29 |
| 发明(设计)人: | 吴泽宏;柯宗庆;黄佐华 | 申请(专利权)人: | 蓝盾信息安全技术股份有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/35;G06N3/04;G06N3/08 |
| 代理公司: | 44245 广州市华学知识产权代理有限公司 | 代理人: | 李君<国际申请>=<国际公布>=<进入国 |
| 地址: | 510665 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 情感分析 细粒度 评论标签 评论文本 训练模型 数据集 初始模型 目标领域 向量化 源领域 情感分析数据 计算机设备 存储介质 格式数据 领域数据 数据集中 序列输入 获取源 三元组 微调 文本 输出 评论 中文 分析 | ||
1.一种细粒度情感分析方法,其特征在于,所述方法包括:
获取源领域数据集和目标领域数据集;其中,所述源领域数据集中的每条数据为评论文本、评论标签、评论分数的三元组格式数据;
搭建情感分析初始模型;
将源领域数据集的评论文本序列和评论标签序列进行向量化;
将向量化后的评论文本序列和评论标签序列输入情感分析初始模型进行训练,得到情感分析预训练模型;
利用情感分析预训练模型在目标领域数据集上进行微调训练,得到细粒度情感分析模型;
对待分析文本进行分词、去停用词处理,在处理后输入细粒度情感分析模型,进行细粒度情感分析,输出得到情感分析结果。
2.根据权利要求1所述的细粒度情感分析方法,其特征在于,所述情感分析初始模型包括双向长短期记忆网络层、注意力机制层和全连接层;
所述将向量化后的评论文本序列和评论标签序列输入情感分析初始模型进行训练,得到情感分析预训练模型,具体包括:
将向量化后的评论文本序列输入双向长短期记忆网络层,经特征映射后得到序列规律信息;
将向量化后的评论文本序列、向量化后的评论标签序列平均值和序列规律信息输入注意力机制层,对序列规律信息的各个元素进行加权,得到输出序列;
将输出序列输入全连接层,输出预测结果,并对情感分析初始模型的参数进行优化,得到情感分析预训练模型。
3.根据权利要求2所述的细粒度情感分析方法,其特征在于,所述对序列规律信息的各个元素进行加权,得到输出序列,如下:
S=α1h1,α2h2,...,αnhn
其中,S为输出序列,(h1,h2,...,hn)为序列规律信息;(α1,α2,...,αn)为权重,其计算公式如下:
其中,1≤i≤n,1≤j≤n;wi为向量化后的评论文本序列;score为得分函数,其计算公式如下:
score(T,wi)=vTtanh(WhT+WTwi+b)
其中,vT、Wh、WT为待学习的参数矩阵,b为注意力机制层的偏置值;Ti为向量化后的评论标签序列,1≤i≤n。
4.根据权利要求2所述的细粒度情感分析方法,其特征在于,所述将输出序列输入全连接层,输出预测结果,具体包括:
在全连接层中,输出序列经过一个ReLu层的映射,如下:
S′=ReLu(WS+b)
其中,S为输出序列,S′为经过一个ReLu层映射得到的序列,W为待学习的参数矩阵,b为ReLu层的偏置值;
在全连接层最后的输出层中利用softmax函数进行映射,得到预测结果,如下:
其中,W′为待学习的参数矩阵,b′为全连接层最后的输出层的偏置值。
5.根据权利要求1-4任一项所述的细粒度情感分析方法,其特征在于,所述获取源领域数据集,具体包括:
从互联网上爬取带有评论标签的评论文本;
对评论文本和评论标签进行分词、去停用词处理,在处理后以评论文本、评论标签、评论分数的三元组格式进行存储,得到源领域数据集。
6.根据权利要求5所述的细粒度情感分析方法,其特征在于,所述从互联网上爬取带有评论标签的评论文本,具体为:采用Scrapy分布式爬虫框架从互联网上爬取带有评论标签的评论文本;
对评论文本和评论标签进行分词,具体为:采用开源的结巴分词工具对评论文本和评论标签进行分词;其中,评论标签分词后最大的长度为2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝盾信息安全技术股份有限公司,未经蓝盾信息安全技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910796626.0/1.html,转载请声明来源钻瓜专利网。





