[发明专利]一种基于不均衡文本集的情感分类器构建方法、装置、设备和介质有效
申请号: | 202010617303.3 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111767399B | 公开(公告)日: | 2022-12-06 |
发明(设计)人: | 冯豆豆 | 申请(专利权)人: | 深圳平安智慧医健科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/216;G06F40/242;G06F40/289;G06K9/62;G06N20/10 |
代理公司: | 北京英特普罗知识产权代理有限公司 11015 | 代理人: | 程超 |
地址: | 518000 广东省深圳市前海深港合作区南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 均衡 文本 情感 分类 构建 方法 装置 设备 介质 | ||
本发明公开了一种基于不均衡文本集的情感分类器构建方法,该方法包括:获取第一不均衡样本集,其中,第一不均衡样本集包括多个第一样本和每个第一样本的情感概率样本值;从预置情感词典中确定出第一样本中的情感词和情感词的分值;确定第一样本中用于修饰情感词的程度副词的分值;根据第一样本中的情感词的分值和程度副词的分值计算第一样本的情感分值;根据预置情感分类器确定第一样本的情感概率值;根据第一样本的情感分值、预置情感分类器确定的第一样本的情感概率值以及第一样本的情感概率样本值训练第一机器学习算法,得到用于判断文本情感类别的目标情感分类器。另外,本发明还涉及人工智能中的模型训练及区块链技术。
技术领域
本发明涉及计算机技术领域,具体涉及一种基于不均衡文本集的情感分类器构方法、装置、计算机设备和计算机可读存储介质。
背景技术
文本的情感类型包括正面情感、中立情感和负面情感,不同情感类型的文本数量可能不同,当文本集中某类文本的数量远远超过其他类时,该文本集称为不均衡文本集。比如在新闻文本集中,正面情感和中立情感的新闻文本大约占90%,负面情感的新闻文本大约占10%。
在不均衡文本集中,少数类文本所表达的信息量要远远少于多数类。当基于不均衡文本集构建用于判断文本情感类型的情感分类器时,情感分类器基本无法学习到少数类文本的特点,从而导致情感分类器准确率不高,容易出现错判的情况。
针对上述问题,一种相关技术的解决方案是采用过采样技术,即对少数类文本进行多次采样,直至少数类文本的数量和多数类文本的数量相同;另一种相关技术的解决方案是采用欠采样技术,即从多数类文本中采出部分文本,使得多数类文本的数量和少数类文本的数量相同。
然而,发明人研究发现,相关技术中使用过采样技术仅仅是增加了少数类文本的权重,使用欠采样技术仅仅是降低了多数类文本的权重,这两种方法并不能更多更深入的挖掘出少数类文本所包含的情感信息,并且欠采样技术还会丢弃部分多数类文本,从而造成多数类文本的情感信息丢失。
针对相关技术中无法更多的挖掘出少数类文本所包含的情感信息甚至会造成多数类文本的情感信息丢失,从而使得利用不均衡文本集构建的情感分类器的准确率依然较低的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明的目的在于提供了一种基于不均衡文本集的情感分类器构方法、装置、计算机设备和计算机可读存储介质,能够解决相关技术中无法更多的挖掘出少数类文本所包含的情感信息甚至会造成多数类文本的情感信息丢失,从而使得利用不均衡文本集构建的情感分类器的准确率依然较低的技术问题。
本发明的一个方面提供了一种基于不均衡文本集的情感分类器构建方法,所述方法包括:获取第一不均衡样本集,其中,所述第一不均衡样本集包括多个第一样本和每个所述第一样本的情感概率样本值;从预置情感词典中确定出所述第一样本中的情感词和所述情感词的分值;确定所述第一样本中用于修饰所述情感词的程度副词的分值;根据所述第一样本中的所述情感词的分值和所述程度副词的分值计算所述第一样本的情感分值;根据预置情感分类器确定所述第一样本的情感概率值,其中,所述预置情感分类器根据第二不均衡样本集训练得到,所述第二不均衡样本集包括多个第二样本和每个所述第二样本的情感概率样本值;根据所述第一样本的情感分值、所述预置情感分类器确定的所述第一样本的情感概率值以及所述第一样本的情感概率样本值训练第一机器学习算法,得到用于判断文本情感类别的目标情感分类器。
可选地,所述情感词包括正面情感词和负面情感词,所述第一样本的情感分值包括正面情感分值和负面情感分值,所述根据所述第一样本中的所述情感词的分值和所述程度副词的分值计算所述第一样本的情感分值,包括:根据所述第一样本中的所述正面情感词的分值和用于修饰所述正面情感词的程度副词的分值计算所述第一样本的正面情感分值;和/或根据所述第一样本中的所述负面情感词的分值和用于修饰所述负面情感词的程度副词的分值计算所述第一样本的负面情感分值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳平安智慧医健科技有限公司,未经深圳平安智慧医健科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010617303.3/2.html,转载请声明来源钻瓜专利网。