[发明专利]互联网多种情感词典构建方法及系统在审
申请号: | 201310470531.2 | 申请日: | 2013-10-10 |
公开(公告)号: | CN103544246A | 公开(公告)日: | 2014-01-29 |
发明(设计)人: | 刘奕群;马少平;张敏;金奕江;张阔 | 申请(专利权)人: | 清华大学;北京搜狗科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 深圳市鼎言知识产权代理有限公司 44311 | 代理人: | 徐丽昕 |
地址: | 100084 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 互联网 多种 情感 词典 构建 方法 系统 | ||
1.一种互联网多种情感词典构建方法,其特征在于,该方法包括:
获取步骤,从互联网上获取互联网文本语料;
数据预处理步骤,对所获取的文本语料进行数据预处理以得到情感词典的候选词;
提取新词步骤,从所获取的文本语料提取新词以得到情感词典的候选词;
构建图模型步骤,利用所得到的情感词典的候选词来构建无向图模型;
迭代计算步骤,利用无向图模型及标签传播算法迭代计算无向图中每个节点的多种情感得分以构建情感词典。
2.如权利要求1所述的互联网多种情感词典构建方法,其特征在于,所述数据预处理步骤包括:
去除步骤,去除文本语料中的特殊词语;
分词与提取步骤,对文本语料进行分词,并基于分词结果生成n元组,从文本语料中提取出一元组、二元组和三元组共三类元组集合,其中n<4;
移除步骤,在所述三类元组集合中,分别移除在文本语料中出现次数居前预设位数的高频元组以及低于预设次数低频元组,以将出现次数居中的中频元组作为一部分情感词典的候选词。
3.如权利要求1所述的互联网多种情感词典构建方法,其特征在于,所述提取新词步骤中从所获取的文本语料提取新词的方法包括:上下文熵新词发现方法及互信息的新词发现方法。
4.如权利要求3所述的互联网多种情感词典构建方法,其特征在于,所述构建图模型步骤包括:
计算步骤,计算情感词典的各个候选词在文本语料的句子中共同出现的次数,作为任意两个候选词间的相互关系;
构建无向图模型步骤,以每个候选词为节点,相互关系作为边权,构建无向图模型。
5.如权利要求4所述的互联网多种情感词典构建方法,其特征在于,在构建无向图模型步骤中,将所构建的无向图模型用矩阵G=(V,E)来表示,该G用来表示候选词之间的连接关系,其中V表示候选词的集合,E表示边的集合;
该G中每个节点v对应一个候选词,其中v∈V,边(vi,vj)对应于两个候选词vi与vj的同现关系,其中(vi,vj)∈E;
将V中各个节点间的同现关系用同现矩阵W表示,同现矩阵W是G的邻接矩阵,其是对称的,同现矩阵W中的元素wij表示边(vi,vj)的权重,即为这两个节点vi,vj在文本语料中同现的次数,同现矩阵W的对角线上的元素wii对应于vi在文本语料中出现的数量。
6.如权利要求5所述的互联网多种情感词典构建方法,其特征在于,所述迭代计算步骤包括:
选取步骤,在无向图模型的节点中选取种子词赋予其情感得分;
传播步骤,通过标签传播算法,在边权的作用下,从选取的种子词出发将该情感得分传播到无向图中全部连通的节点,每个节点将得到相对应的多种情感得分;
构建情感词典步骤,在迭代收敛后,每个连通的节点都被赋予了多种情感得分,每个节点的情感得分即表示该节点所对应的候选词的情感倾向,这些节点对应的候选词及其多种情感得分即构成了情感词典。
7.如权利要求2所述的互联网多种情感词典构建方法,其特征在于,所述高频元组是停用词,其同各类词语都有较高的同现机会;所述低频元组是非词语、用户名。
8.如权利要求1所述的互联网多种情感词典构建方法,其特征在于,所述情感得分包括情绪得分、褒义得分、贬义得分及绝对得分,
所述情绪得分包括喜悦得分、愤怒得分、悲哀得分、恐惧得分及惊讶得分。
9.如权利要求6所述的互联网多种情感词典构建方法,其特征在于,所述种子词根据词集从所得到的情感词典的各个候选词中选取出来,其包括确定的情感词及与语言无关的情感记号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京搜狗科技发展有限公司,未经清华大学;北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310470531.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于减少NOx排放的燃烧器组件和方法
- 下一篇:洗衣液组合物