[发明专利]一种文本情感分类方法及装置在审
申请号: | 201910941279.6 | 申请日: | 2019-09-30 |
公开(公告)号: | CN112667803A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 戴泽辉 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王娇娇 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 情感 分类 方法 装置 | ||
本发明提供了文本情感分类方法及装置,利用与待分类文本属于同一领域的文本编码模型全向分析待分类文本中的上下文语义信息得到相应的文本向量;同时,获得情感分类属性词的位置向量,然后,将文本向量和位置向量拼接得到文本及位置向量。该文本及位置向量既包含待分类文本的上下文语义信息同时还包括情感分类属性词的位置信息,目标情感分类模型依据情感分类属性词的位置信息能够明确情感分析的对象,从而提高了情感分析结果的准确率。而且,该文本向量能够更准确地表征待分类文本的语义信息,从而使情感分类模型更好地理解文本的语境信息,进而提高了分类准确率。此外,采用预训练的文本编码模型可以大大降低数据标注量。
技术领域
本发明属于计算机技术领域,尤其涉及一种文本情感分类方法及装置。
背景技术
文本情感分类是指对文本中的品牌词或属性词进行情感分类。目前经典的文本情感分类方法通常采用深度学习模型,而深度学习模型需要大量的标注样本作为训练数据才能得到最终用于情感分类的模型,而且情感分类效果不佳。
发明内容
有鉴于此,本发明的目的在于提供一种文本情感分类方法及装置,以降低训练所需标注数据的数量,并缩短训练周期,其具体的技术方案如下:
第一方面,本发明提供了一种文本情感分类方法,包括:
获取待分类文本;
基于目标文本编码模型分析所述待分类文本的上下文语义信息,得到所述待分类文本对应的文本向量;其中,所述目标文本编码模型利用与所述待分类文本属于相同领域的语料对预训练的通用文本编码模型进行继续训练得到;
获取所述待分类文本中的情感分类属性词的位置信息对应的位置向量;
将所述文本向量及所述位置向量进行拼接,得到文本及位置向量;
基于目标情感分类模型分析所述文本及位置向量,得到所述待分类文本中的情感分类属性词所属的目标情感类别。
在第一方面一种可能的实现方式中,所述基于目标文本编码模型分析所述待分类文本的上下文语义信息,得到所述待分类文本对应的文本向量,包括:
以字为单位对所述待分类文本进行划分,得到文本划分结果;
基于所述通用文本编码模型,全向分析所述文本划分结果中的每个字在所述待分类文本中的语义,得到每个字对应的字向量;
按照所述文本划分结果中每个字对应的顺序,将每个字对应的字向量拼接为文本向量。
在第一方面另一种可能的实现方式中,利用与所述待分类文本属于相同领域的语料对预训练的通用文本编码模型进行继续训练的过程包括:
获取与所述待分类文本属于相同领域的多条文本语料;
随机遮盖每条所述文本语料中的词语,并标注每条文本语料中被遮盖词语的正确词语,得到训练文本语料;
基于预训练的通用文本编码模型,预测每条所述训练文本语料中被遮盖词语对应的预测结果;
依据同一条训练文本语料对应的预测结果及标注的正确词语,反复优化所述通用文本编码模型中的模型参数直到满足收敛条件,得到目标文本编码模型。
在第一方面又一种可能的实现方式中,所述获取所述待分类文本中的情感分类属性词的位置信息对应的位置向量,包括:
确定所述待分类文本中的情感分类属性词;
将所述情感分类属性词中的每个字标记为第一预设二进制数值,以及,将所述待分类文本中除所述情感分类属性词之外的其它字标记为不同于所述第一预设二进制数值的其它数值,根据每个字对应的数值得到所述情感分类属性词对应的位置向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910941279.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:控制车辆的方法、装置、设备和存储介质
- 下一篇:一种链臂锯的减速机