[发明专利]一种基于情感轮模型的情感词典快速构建方法在审
申请号: | 201810294977.7 | 申请日: | 2018-04-04 |
公开(公告)号: | CN108563635A | 公开(公告)日: | 2018-09-21 |
发明(设计)人: | 冯冲;王阳 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 鲍文娟 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于情感轮模型的情感词典快速构建方法,属于自然语言处理应用技术领域。首先对大规模语料进行规范化处理,使用CBOW模型训练出词向量,获得词语语义空间表示;再使用词向量和少量人工筛选进行情感种子词构建,得到情感种子词集;最后基于情感轮模型完成语义空间到情感空间的映射,构建词汇级情感词典资源。本发明通过设计更加准确的四维情感模型,克服了传统二维情感模型将句子倾向性绑定到词汇倾向性上导致评价不准确的缺点;本发明构建词汇级情感词典资源的过程仅需极少的人工干预,因此可以在不同语种上快速构建情感词典;本发明构建的词汇级情感词典资源在情感分析的多个任务中都取得很好的效果。 | ||
搜索关键词: | 情感词典 构建 快速构建 词汇 情感模型 词向量 种子词 倾向性 应用技术领域 自然语言处理 大规模语料 词语语义 空间表示 模型训练 情感分析 人工干预 人工筛选 语义空间 再使用 绑定 二维 四维 映射 句子 语种 规范化 | ||
【主权项】:
1.一种基于情感轮模型的情感词典快速构建方法,其特征在于:用于构造词汇级情感词典资源以及完成情感分析的多个任务;其中,词汇级情感词典资源,记为SentiVec;核心思想是:首先对大规模语料进行规范化处理,使用CBOW模型训练出词向量,获得词语语义空间表示;再使用词向量和少量人工筛选进行情感种子词构建,得到情感种子词集;最后基于情感轮模型完成语义空间到情感空间的映射,构建词汇级情感词典资源;包括如下步骤:步骤一、语料预处理:对待处理语料按照规则进行分词处理后得到语料集T;步骤二、经词向量训练获得词语语义空间表示,具体为:使用CBOW模型进行词向量的训练,得到词语语义空间表示;其中,CBOW模型为Mikolov提出的Continuous Bag of Words模型;步骤三、构建情感种子词集,具体基于情感轮模型的24种基础情感,利用步骤二训练所得的词语语义空间表示构建情感种子词集;其中,24种基础情感分为四个维度,分别为pleasantness、attention、sensitivity和aptitude;其中,每个维度包含6种基础情感,表示6个不同强度;步骤四、空间映射:将步骤二输出的词语语义空间表示和步骤三输出的情感种子词集通过映射函数进行空间映射,将词语语义空间中所有词语映射到情感空间的四维值表示;其中,词语语义空间到情感空间的映射方式如下:步骤4.1对于目标词w,我们计算它在情感空间中的四维值,对于每一维度,在情感种子词集中有6个强度子集;步骤4.2对每个强度的种子词计算cosine相似度,取前N个词语平均值作为该强度的打分;6个强度打分都计算完后取打分值最高的强度作为该维度的初始数值,由此得到四个维度的初始数值;步骤4.3定义公式(1)对初始数值进行调整,得到最终词语的四维情感值,完成语义空间到情感空间的转换,得到四维情感词典资源;
其中,sigmoid是激活函数;x是基础情感的强度值;α是权值;max(Vi(w))是步骤4.2中得到的目标词w的初始数值;
是语义空间中词语的平均距离;公式的作用是当目标词不属于某一维度任一强度时,值设为0。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810294977.7/,转载请声明来源钻瓜专利网。