[发明专利]主题特征词抽取方法及系统、情感极性判断方法及系统在审
申请号: | 201710542760.9 | 申请日: | 2017-07-05 |
公开(公告)号: | CN107357785A | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 刘东升;王黎明;陈毓蔚 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 杭州知通专利代理事务所(普通合伙)33221 | 代理人: | 姚宇吉 |
地址: | 310000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题 特征 抽取 方法 系统 情感 极性 判断 | ||
技术领域
本发明属于互联网信息处理领域,涉及社交网络文本信息处理与文本情感极性判断技术领域,特别涉及一种主题特征词抽取方法及系统、情感极性判断方法及系统。
背景技术
20世纪末,互联网产品模式主要是以网站雇员主导生成内容的形式。而现如今,互联网的内容是由用户为主导产生的,每个用户已不仅仅是互联网的接收者,同时也是互联网内容的制造者。因此,为了区别于以往的互联网模式,提出了web2.0的概念。随着新闻评论、微博、博客、BBS等社交网络的快速发展,web2.0时代下的互联网上用户原创内容(User Generated Content,简称UGC)呈指数级的爆炸式增长。另一方面,随着移动端的普及,受到屏幕输入限制以及用户本身书写习惯等原因,用户在社交网络上发布的内容越来越精炼,各种形式的短文本(即文本长度较短的文本数据)更易产生。目前,短文本数据量与日俱增,对短文本的内容挖掘可在话题跟踪与发现、情感极性判断、舆情监测与预警等领域有着广泛的应用前景。
然而,短文本信息的处理方法与传统意义上的文本(即文本长度较长的文本数据,简称长文本)的大不相同。长文本一般数据量足够大,样本特征空间丰富,经过数据预处理阶段,如降维、去噪等过程后,长文本核心信息依旧得以保留,在形成文本矩阵时不会出现大量零元素。而短文本自身所包含的词语较少,经过数据预处理后,本身的特征空间已不足以表达有效的语言含义。因此,传统的文本信息处理方法在短文本的内容挖掘时准确性较差,不适合用于短文本的主题特征词抽取和情感极性判断。
发明内容
本发明的目的是提出一种主题特征词抽取方法及系统、情感极性判断方法及系统,可以应用到短文本信息处理技术领域,实现短文本主题特征词的准确抽取和情感极性的准确判断。
为了解决上述技术问题,本发明采用了下述技术方案:
本发明提出一种主题特征词抽取方法,其包括以下步骤:
获取社交网络评论的文本数据;
对文本数据进行预处理,预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词;
将每条短文本的分词在各自短文本范围内自由组合成词对,并将词对表示成词向量的形式;
给定参数T作为短文本中需要抽取出的主题特征词的数量;
根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布;
利用吉布斯采样得到主题的多项式分布,吉布斯采样的过程如下:对文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布;
针对主题的多项式分布,将主题按照出现频次进行排列,并根据排列结果抽取主题特征词。
优选的,预处理的过程还包括以下步骤:针对分词,统计分词的词频,去除出现频率低于3次的词语。
优选的,预处理的过程还包括以下步骤:针对分词,去除无实际意义的词语。
优选的,吉布斯采样的过程还包括:
利用贝叶斯公式表示出词对、情感极性与主题的联合概率分布:p(b,l,z|α,β,γ)=p(b|l,z,β)·p(l|z,γ)·p(z|α),其中,b为词对,l为情感极性,z为主题;
通过对词对求积分得到词对的概率分布:
其中,Γ为伽玛函数,i表示第i个词对,j表示第j个主题,k表示第k个情感极性,V为词汇表,T为主题的数量,S为情感极性的数量,ni,j,k为第i个词对指派为主题j和情感极性k的次数;nj,k为指派为主题j和情感极性k的词对数量;
通过对情感极性π求积分得到情感极性的概率分布:
其中,Γ为伽玛函数,j表示第j个主题,k表示第k个情感极性,T为主题的数量,nj,k为指派为主题j和情感极性k的词对数量,nj为指派为主题j的词对数量;
通过对主题θ求积分得到主题的概率分布:
其中,nd,j为短文本d中确定主题j的词对数量,nd为短文本d中的词对数量,D为短文本的数量;
结合伽玛函数,得到简化的联合概率分布:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710542760.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于灌装悬浮液体肥料的灌装设备
- 下一篇:一种封箱机