[发明专利]一种融合先验知识模型的蒙古语多模态细粒度情感分析方法在审
申请号: | 202110765525.4 | 申请日: | 2021-07-07 |
公开(公告)号: | CN113609849A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 仁庆道尔吉;张倩;张文静;刘馨远;张毕力格图;郎佳珺;苏依拉;李雷孝 | 申请(专利权)人: | 内蒙古工业大学 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/30;G06F40/242;G06F40/58;G06N3/04;G06N3/08 |
代理公司: | 武汉菲翔知识产权代理有限公司 42284 | 代理人: | 刘谷红 |
地址: | 010080 内蒙古自治区呼和浩*** | 国省代码: | 内蒙古;15 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 先验 知识 模型 蒙古语 多模态 细粒度 情感 分析 方法 | ||
1.一种融合先验知识模型的蒙古语多模态细粒度情感分析方法,其特征在于,包括如下步骤:
步骤1:对含有表情符的中文和蒙古语情感语料库进行预处理;
步骤2:通过机器翻译技术将含有表情符的中文语料翻译成蒙古语语料;
步骤3:用融合jieba分词和正则化的BPE分词技术对蒙古语语料进行分词;
步骤4:将分词得到的蒙古语文本语料和表情符表示成动态词向量并将二者拼接成新的词向量;
步骤5:引入注意力机制对新的词向量分配不同的权重,有侧重点地提取情感特征;
步骤6:分别创建蒙古语情感词典和表情符的情感词典作为模型的先验知识;
步骤7:将融合先验知识的模型在大规模的语料进行预训练,得到融合先验知识模型的蒙古语多模态细粒度情感分析模型;
步骤8:将融合先验知识模型的蒙古语多模态细粒度情感分析模型的分析结果与单一网络分析方法的分析结果就准确率、精确率、召回率和F1值进行对比和评价。
2.根据权利要求1所述融合先验知识模型的蒙古语多模态细粒度情感分析方法,其特征在于,所述步骤1中,预处理是对所获取的语料进行数据清洗,包括移除用户名信息、移除URLS、移除特殊字符的步骤;所述步骤2中,通过已获取的含有表情符的中文语料进行机器翻译转化成蒙古语语料。
3.根据权利要求2所述融合先验知识模型的蒙古语多模态细粒度情感分析方法,其特征在于,采用jieba分词和正则化的字节对编码技术分词技术对预处理的语料信息进行切分操作,利用GloVe模型将文本语料和表情符训练生成对应的词向量,二者拼接形成新的词向量,并对新的词向量采用贪心处理方式进一步发现未登录词,修正切分结果。
4.根据权利要求2所述融合先验知识模型的蒙古语多模态细粒度情感分析方法,其特征在于,所述利用GloVe训练生成词向量的目标函数J(W)为:
其中,W为词向量矩阵,W∈R|V|*d,|V|表示词的数量,d表示词向量维数;Xij表示词wj在词wi的语境下出现的次数,Wi表示词wi的词向量,Wj表示词wj的词向量,f(Xij)是权重项,用于去除低频项噪声,其表达式如下:
其中,Xmax为Xi中的最大值,Xi表示在词wi的语境下出现的所有的词的次数,Xi=∑jXij;
对于原分词结果γ=w1w2…wm,从头开始比较当前词wi的词向量Wi与下一个词wi+1的词向量Wi+1的夹角余弦值,夹角余弦值公式为:
若该夹角余弦值大于预先给定的阈值λ,则认为词wi和词wi+1组成新词,组合后的词向量为二者加和归一化的结果,计算公式为:
利用python编译器TensorFlow框架里面的拼接方法,将生成了文本词向量和表情符词向量进行拼接操作,得到新的词向量new_wordvector:
new_wordvector
=tensorflow.concat([Text_wordvector,emoji_wordvector],1)
利用该新词的词向量继续进行贪心地匹配,直到句子结束,得到修正后的切分结果其中m为原分词结果Y中的词向量的个数,n为修正后的切分结果中的词向量的个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古工业大学,未经内蒙古工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110765525.4/1.html,转载请声明来源钻瓜专利网。