[发明专利]一种文本的话题和情感联合检测方法及装置有效
申请号: | 201710301293.0 | 申请日: | 2017-05-02 |
公开(公告)号: | CN107273348B | 公开(公告)日: | 2020-12-18 |
发明(设计)人: | 傅向华;武海瑛 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F40/289 |
代理公司: | 深圳青年人专利商标代理有限公司 44350 | 代理人: | 吴桂华 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 话题 情感 联合 检测 方法 装置 | ||
1.一种文本的话题和情感联合检测方法,其特征在于,所述方法包括下述步骤:
接收待检测的目标文本,使用预设的情感词典计算所述待检测的目标文本中每个词的初始情感倾向;
获取预先训练得到的词向量,将所述获取的词向量设置为所述待检测的目标文本的词向量的初始值;
使用预设的联合话题情感混合模型对所述待检测的目标文本进行训练,以得到所述待检测的目标文本中各个情感话题对与词之间的初始分配和所述各个情感对应的话题向量;
将所述得到的所述情感对应的话题向量设置为所述待检测的目标文本的情感对应的话题向量的初始值;
根据所述目标文本中每个词的初始情感倾向、所述词向量和话题向量的初始值以及所述各个情感话题对与词之间的初始分配,对所述目标文本中包括的每篇文档进行扫描,依次对扫描到的每个训练目标词执行预设的话题和情感检测步骤,以得到所述目标文本所涉及的话题和情感;
所述预设的话题和情感检测步骤,包括:
计算预设的循环神经网络的隐藏层函数ht,以根据所述隐藏层函数ht获取所述训练目标词的序列信息和话题的关联信息;
根据更新所述训练目标词对应的情感倾向和话题,所述vt是对应词的词向量表示,所述W**表示权重,所述b*表示偏置项,所述softmax函数为:所述v表示词典大小;
计算预设的循环神经网络的隐藏层函数ht的步骤,包括:
当所述预设的循环神经网络为LSTM时,根据公式ht=ot⊙tanh(ct)计算所述隐藏层函数ht,所述所述所述所述所述xt为输入词语的词向量表示,所述zt为词语对应话题的话题向量表示,所述ht-1和ht表示隐藏层状态;
当所述预设的循环神经网络为GRU时,根据公式ht=zt⊙ht-1+(1-zt)⊙ut计算所述隐藏层函数ht,所述所述所述
2.如权利要求1所述的方法,其特征在于,获取预先训练得到的词向量的步骤之前,所述方法还包括:
获取外部扩展语料,以作为所述目标文本对应的原始数据的语义补充;
使用预设词向量训练程序对所述获取的外部扩展语料进行预训练,以得到所述外部扩展语料中各个词语的词向量。
3.如权利要求2所述的方法,其特征在于,
所述外部扩展语料为维基百科或百度百科,所述预设词向量训练程序为word2vec或者GloVe工具;
预设的情感词典为HowNet词典,预设的联合话题情感混合模型为WS-TSWE模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710301293.0/1.html,转载请声明来源钻瓜专利网。