[发明专利]主题特征词抽取方法及系统、情感极性判断方法及系统在审

申请号：	201710542760.9	申请日：	2017-07-05
公开（公告）号：	CN107357785A	公开（公告）日：	2017-11-17
发明（设计）人：	刘东升;王黎明;陈毓蔚	申请（专利权）人：	浙江工商大学
主分类号：	G06F17/27	分类号：	G06F17/27
代理公司：	杭州知通专利代理事务所(普通合伙)33221	代理人：	姚宇吉
地址：	310000 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	主题特征抽取方法系统情感极性判断
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于互联网信息处理领域，涉及社交网络文本信息处理与文本情感极性判断技术领域，特别涉及一种主题特征词抽取方法及系统、情感极性判断方法及系统。

背景技术

20世纪末，互联网产品模式主要是以网站雇员主导生成内容的形式。而现如今，互联网的内容是由用户为主导产生的，每个用户已不仅仅是互联网的接收者，同时也是互联网内容的制造者。因此，为了区别于以往的互联网模式，提出了web2.0的概念。随着新闻评论、微博、博客、BBS等社交网络的快速发展，web2.0时代下的互联网上用户原创内容(User Generated Content，简称UGC)呈指数级的爆炸式增长。另一方面，随着移动端的普及，受到屏幕输入限制以及用户本身书写习惯等原因，用户在社交网络上发布的内容越来越精炼，各种形式的短文本(即文本长度较短的文本数据)更易产生。目前，短文本数据量与日俱增，对短文本的内容挖掘可在话题跟踪与发现、情感极性判断、舆情监测与预警等领域有着广泛的应用前景。

然而，短文本信息的处理方法与传统意义上的文本(即文本长度较长的文本数据，简称长文本)的大不相同。长文本一般数据量足够大，样本特征空间丰富，经过数据预处理阶段，如降维、去噪等过程后，长文本核心信息依旧得以保留，在形成文本矩阵时不会出现大量零元素。而短文本自身所包含的词语较少，经过数据预处理后，本身的特征空间已不足以表达有效的语言含义。因此，传统的文本信息处理方法在短文本的内容挖掘时准确性较差，不适合用于短文本的主题特征词抽取和情感极性判断。

发明内容

本发明的目的是提出一种主题特征词抽取方法及系统、情感极性判断方法及系统，可以应用到短文本信息处理技术领域，实现短文本主题特征词的准确抽取和情感极性的准确判断。

为了解决上述技术问题，本发明采用了下述技术方案：

本发明提出一种主题特征词抽取方法，其包括以下步骤：

获取社交网络评论的文本数据；

对文本数据进行预处理，预处理的过程如下：使用字符串匹配与正则表达式抽取短文本的正文文本；对正文文本进行分词；针对分词，对照停用词表去除停用词；

将每条短文本的分词在各自短文本范围内自由组合成词对，并将词对表示成词向量的形式；

给定参数T作为短文本中需要抽取出的主题特征词的数量；

根据先验知识初始化超参数α、β和γ，其中，α为主题的先验分布，β为词对的先验分布，γ为情感极性的先验分布；

利用吉布斯采样得到主题的多项式分布，吉布斯采样的过程如下：对文本数据中的各个短文本进行标号；结合标号，依次选取短文本，针对短文本的每一个词对，根据多项式分布选择一个主题和情感极性，并更新主题和情感极性的多项式分布；采样完成得到后验参数Θ、Φ和Π，其中，Θ为主题的多项式分布，Φ为词对的多项式分布，Π为情感极性的多项式分布；

针对主题的多项式分布，将主题按照出现频次进行排列，并根据排列结果抽取主题特征词。

优选的，预处理的过程还包括以下步骤：针对分词，统计分词的词频，去除出现频率低于3次的词语。

优选的，预处理的过程还包括以下步骤：针对分词，去除无实际意义的词语。

优选的，吉布斯采样的过程还包括：

利用贝叶斯公式表示出词对、情感极性与主题的联合概率分布：p(b,l,z|α,β,γ)＝p(b|l,z,β)·p(l|z,γ)·p(z|α)，其中，b为词对，l为情感极性，z为主题；

通过对词对求积分得到词对的概率分布：

其中，Γ为伽玛函数，i表示第i个词对，j表示第j个主题，k表示第k个情感极性，V为词汇表，T为主题的数量，S为情感极性的数量，n_i,j,k为第i个词对指派为主题j和情感极性k的次数；n_j,k为指派为主题j和情感极性k的词对数量；

通过对情感极性π求积分得到情感极性的概率分布：

其中，Γ为伽玛函数，j表示第j个主题，k表示第k个情感极性，T为主题的数量，n_j,k为指派为主题j和情感极性k的词对数量，n_j为指派为主题j的词对数量；

通过对主题θ求积分得到主题的概率分布：

其中，n_d,j为短文本d中确定主题j的词对数量，n_d为短文本d中的词对数量，D为短文本的数量；

结合伽玛函数，得到简化的联合概率分布：