[发明专利]一种文本话题和情感的联合检测方法及装置有效
| 申请号: | 201610683225.0 | 申请日: | 2016-08-17 |
| 公开(公告)号: | CN106326210B | 公开(公告)日: | 2019-09-10 |
| 发明(设计)人: | 傅向华;武海瑛 | 申请(专利权)人: | 深圳大学 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27 |
| 代理公司: | 深圳青年人专利商标代理有限公司 44350 | 代理人: | 傅俏梅 |
| 地址: | 518060 广东*** | 国省代码: | 广东;44 |
| 权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
| 摘要: | 本发明适用机器学习技术领域,提供了一种文本话题和情感的联合检测方法及装置,该方法包括:使用预设的情感词典计算输入的目标文本中每个词的初始情感倾向,将预先获取的外部语料的词向量设置为目标文本的词向量的初始值,使用预设的话题情感混合模型对输入的目标文本进行训练,以得到目标文本中各个情感话题对与词之间的初始分配,根据目标文本中每个词的初始情感倾向、词向量的初始值以及各个情感话题对与词之间的初始分配,对目标文本中包括的每篇文档进行扫描,对扫描到的每个训练目标词执行预设的话题和情感检测步骤,以得到目标文本所涉及的话题和情感,从而提高了获得的目标文本的话题和情感的准确度。 | ||
| 搜索关键词: | 目标文本 话题 词向量 预设 初始分配 联合检测 情感倾向 扫描 文本 机器学习技术 准确度 混合模型 情感词典 训练目标 预先获取 文档 语料 检测 外部 | ||
【主权项】:
1.一种文本话题和情感的联合检测方法,其特征在于,所述方法包括下述步骤:使用预设的情感词典计算输入的目标文本中每个词的初始情感倾向;将预先获取的外部语料的词向量设置为所述目标文本的词向量的初始值;使用预设的话题情感混合模型对输入的目标文本进行训练,以得到所述目标文本中各个情感话题对与词之间的初始分配;根据所述目标文本中每个词的初始情感倾向、所述词向量的初始值以及所述各个情感话题对与词之间的初始分配,对所述目标文本中包括的每篇文档进行扫描,对扫描到的每个训练目标词执行预设的话题和情感检测步骤,以得到所述目标文本所涉及的话题和情感;所述预设的话题和情感检测步骤包括:利用
对所述目标文本的话题向量进行学习,其中,
为L2正则化项,μ为正则化因子,υk为话题k对应的话题向量,
为话题k下词wi出现的次数,
代表词wi对应的词向量表示;使用
计算每篇文档情感和话题向量对应下的词向量概率分布,vk代表话题向量,
代表词wi对应的词向量表示,W为语料库中词典内包含的词的集合,wi'为词典中的词;根据
更新训练目标词对应的情感倾向和话题,其中,
表示文本情感下话题的分布,
表示文本下情感的分布,
表示情感下话题词的分布,α、β、γ表示Dirichlet先验超参数,λ表示服从伯努利分布的参数,ν表示话题向量,ω表示词向量,V、T、L分别表示词典大小、话题个数、情感标签的个数,
表示除文档d中的第i个词外,情感l中被分配到话题k的词的个数,
表示文档d中的第i个词被分配到情感l的次数,但不包含当前分配,
表示除文档d中的第i个词外,情感l下分配到的词的总数,
表示当前词i被分配到情感l中话题k的词的次数,但不包含当前分配,
表示除当前词i外,情感l下分配到话题k的词的总数,zi表示当前词的话题编号,li表示当前词的情感类别编号,W表示词典集合,
表示除当前话题外其他的话题,
表示除当前情感类别外其他的情感类别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610683225.0/,转载请声明来源钻瓜专利网。





