[发明专利]细粒度情感分析方法、装置、计算机设备及存储介质在审

专利信息
申请号: 201910796626.0 申请日: 2019-08-27
公开(公告)号: CN110516245A 公开(公告)日: 2019-11-29
发明(设计)人: 吴泽宏;柯宗庆;黄佐华 申请(专利权)人: 蓝盾信息安全技术股份有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06F16/35;G06N3/04;G06N3/08
代理公司: 44245 广州市华学知识产权代理有限公司 代理人: 李君<国际申请>=<国际公布>=<进入国
地址: 510665 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 情感分析 细粒度 评论标签 评论文本 训练模型 数据集 初始模型 目标领域 向量化 源领域 情感分析数据 计算机设备 存储介质 格式数据 领域数据 数据集中 序列输入 获取源 三元组 微调 文本 输出 评论 中文 分析
【权利要求书】:

1.一种细粒度情感分析方法,其特征在于,所述方法包括:

获取源领域数据集和目标领域数据集;其中,所述源领域数据集中的每条数据为评论文本、评论标签、评论分数的三元组格式数据;

搭建情感分析初始模型;

将源领域数据集的评论文本序列和评论标签序列进行向量化;

将向量化后的评论文本序列和评论标签序列输入情感分析初始模型进行训练,得到情感分析预训练模型;

利用情感分析预训练模型在目标领域数据集上进行微调训练,得到细粒度情感分析模型;

对待分析文本进行分词、去停用词处理,在处理后输入细粒度情感分析模型,进行细粒度情感分析,输出得到情感分析结果。

2.根据权利要求1所述的细粒度情感分析方法,其特征在于,所述情感分析初始模型包括双向长短期记忆网络层、注意力机制层和全连接层;

所述将向量化后的评论文本序列和评论标签序列输入情感分析初始模型进行训练,得到情感分析预训练模型,具体包括:

将向量化后的评论文本序列输入双向长短期记忆网络层,经特征映射后得到序列规律信息;

将向量化后的评论文本序列、向量化后的评论标签序列平均值和序列规律信息输入注意力机制层,对序列规律信息的各个元素进行加权,得到输出序列;

将输出序列输入全连接层,输出预测结果,并对情感分析初始模型的参数进行优化,得到情感分析预训练模型。

3.根据权利要求2所述的细粒度情感分析方法,其特征在于,所述对序列规律信息的各个元素进行加权,得到输出序列,如下:

S=α1h1,α2h2,...,αnhn

其中,S为输出序列,(h1,h2,...,hn)为序列规律信息;(α1,α2,...,αn)为权重,其计算公式如下:

其中,1≤i≤n,1≤j≤n;wi为向量化后的评论文本序列;score为得分函数,其计算公式如下:

score(T,wi)=vTtanh(WhT+WTwi+b)

其中,vT、Wh、WT为待学习的参数矩阵,b为注意力机制层的偏置值;Ti为向量化后的评论标签序列,1≤i≤n。

4.根据权利要求2所述的细粒度情感分析方法,其特征在于,所述将输出序列输入全连接层,输出预测结果,具体包括:

在全连接层中,输出序列经过一个ReLu层的映射,如下:

S′=ReLu(WS+b)

其中,S为输出序列,S′为经过一个ReLu层映射得到的序列,W为待学习的参数矩阵,b为ReLu层的偏置值;

在全连接层最后的输出层中利用softmax函数进行映射,得到预测结果,如下:

其中,W′为待学习的参数矩阵,b′为全连接层最后的输出层的偏置值。

5.根据权利要求1-4任一项所述的细粒度情感分析方法,其特征在于,所述获取源领域数据集,具体包括:

从互联网上爬取带有评论标签的评论文本;

对评论文本和评论标签进行分词、去停用词处理,在处理后以评论文本、评论标签、评论分数的三元组格式进行存储,得到源领域数据集。

6.根据权利要求5所述的细粒度情感分析方法,其特征在于,所述从互联网上爬取带有评论标签的评论文本,具体为:采用Scrapy分布式爬虫框架从互联网上爬取带有评论标签的评论文本;

对评论文本和评论标签进行分词,具体为:采用开源的结巴分词工具对评论文本和评论标签进行分词;其中,评论标签分词后最大的长度为2。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蓝盾信息安全技术股份有限公司,未经蓝盾信息安全技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910796626.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top