[发明专利]基于BERT无监督文本分类的舆情分析方法和系统有效
申请号: | 202210657446.6 | 申请日: | 2022-06-10 |
公开(公告)号: | CN115329069B | 公开(公告)日: | 2023-10-13 |
发明(设计)人: | 呼大永;孟庆川;董伊然;马灿;于飞;贾广恒 | 申请(专利权)人: | 黑龙江省网络空间研究中心;中国科学院信息工程研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/33;G06F18/2415 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 150090 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 bert 监督 文本 分类 舆情 分析 方法 系统 | ||
1.一种基于BERT无监督文本分类的舆情分析方法,其特征在于,包括以下步骤:
定义类目关键词列表;
利用BERT模型和无标注语料扩展类目关键词列表,根据扩展的类目关键词列表构建类目指示词表;
通过类目指示词表和无标注语料训练BERT模型,用于预测类目指示词所属的类目;
利用训练所得的BERT模型预测舆情文本所属的类目;
根据BERT模型的预测结果进行舆情分析。
2.根据权利要求1所述的方法,其特征在于,所述利用BERT模型和无标注语料扩展类目关键词列表,包括:
遍历无标注语料,遇到类目关键词时,用BERT模型预测该词出现位置可能出现的词语,得到候选词语列表;
按照词语出现概率对候选词语列表中的词语排序,截取top-N个词语作为扩展出的关键词;
删除每个类目关键词列表中的停用词,以及在多个类目关键词列表中都出现的词,再根据词语出现概率排序关键词,最后只保留top-M个词语。
3.根据权利要求2所述的方法,其特征在于,所述top-N为top-50,所述top-M为top-100。
4.根据权利要求1所述的方法,其特征在于,所述根据扩展的类目关键词列表构建类目指示词表,包括:
遍历无标注语料的每个词语w,用BERT模型预测该词语位置可能出现的词语,得到词语列表;
按照词语出现概率对词语列表中的词语排序,截取top-N个词语;
如果top-N个词语中有n个词语出现在某个类目的类目关键词表中,则将词语w作为类目指示词,放入该类目下的类目指示词表中。
5.根据权利要求4所述的方法,其特征在于,所述top-N为top-50,所述n为20。
6.根据权利要求1所述的方法,其特征在于,所述通过类目指示词表和无标注语料训练BERT模型,包括:
将BERT预测输出的类目指示词向量输入到softmax层;
Softmax层输出类目指示词所属类目的概率分布,预测类目指示词所属类目的概率表达式为:
P(ci|w)=softmax(Wh+b)
其中,ci表示类目i,w为类目指示词,W为softmax层权重,h为BERT预测的类目指示词向量,b为softmax层偏置;
采用交叉熵作为损失函数,训练BERT模型。
7.根据权利要求1所述的方法,其特征在于,所述根据BERT模型的预测结果进行舆情分析,包括:
统计各类目下文本数量和关键词,如果一段时间内某个类目下的文本数量快速增长,则该类目为热点类目,该类目下的高频关键词为热点词,从而达到动态发现热点话题的目的。
8.一种基于BERT无监督文本分类的舆情分析系统,其特征在于,包括:
类目关键词列表扩展模块,用于定义类目关键词列表,利用BERT模型和无标注语料扩展类目关键词列表;
类目指示词表构建模块,用于根据扩展的类目关键词列表构建类目指示词表;
BERT模型训练模块,用于通过类目指示词表和无标注语料训练BERT模型,用于预测类目指示词所属的类目;
舆情分析模块,用于利用训练所得的BERT模型预测舆情文本所属的类目,根据BERT模型的预测结果进行舆情分析。
9.一种电子装置,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~7中任一项所述方法的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~7中任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黑龙江省网络空间研究中心;中国科学院信息工程研究所,未经黑龙江省网络空间研究中心;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210657446.6/1.html,转载请声明来源钻瓜专利网。