[发明专利]主题特征词抽取方法及系统、情感极性判断方法及系统在审

专利信息
申请号: 201710542760.9 申请日: 2017-07-05
公开(公告)号: CN107357785A 公开(公告)日: 2017-11-17
发明(设计)人: 刘东升;王黎明;陈毓蔚 申请(专利权)人: 浙江工商大学
主分类号: G06F17/27 分类号: G06F17/27
代理公司: 杭州知通专利代理事务所(普通合伙)33221 代理人: 姚宇吉
地址: 310000 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 主题 特征 抽取 方法 系统 情感 极性 判断
【说明书】:

技术领域

发明属于互联网信息处理领域,涉及社交网络文本信息处理与文本情感极性判断技术领域,特别涉及一种主题特征词抽取方法及系统、情感极性判断方法及系统。

背景技术

20世纪末,互联网产品模式主要是以网站雇员主导生成内容的形式。而现如今,互联网的内容是由用户为主导产生的,每个用户已不仅仅是互联网的接收者,同时也是互联网内容的制造者。因此,为了区别于以往的互联网模式,提出了web2.0的概念。随着新闻评论、微博、博客、BBS等社交网络的快速发展,web2.0时代下的互联网上用户原创内容(User Generated Content,简称UGC)呈指数级的爆炸式增长。另一方面,随着移动端的普及,受到屏幕输入限制以及用户本身书写习惯等原因,用户在社交网络上发布的内容越来越精炼,各种形式的短文本(即文本长度较短的文本数据)更易产生。目前,短文本数据量与日俱增,对短文本的内容挖掘可在话题跟踪与发现、情感极性判断、舆情监测与预警等领域有着广泛的应用前景。

然而,短文本信息的处理方法与传统意义上的文本(即文本长度较长的文本数据,简称长文本)的大不相同。长文本一般数据量足够大,样本特征空间丰富,经过数据预处理阶段,如降维、去噪等过程后,长文本核心信息依旧得以保留,在形成文本矩阵时不会出现大量零元素。而短文本自身所包含的词语较少,经过数据预处理后,本身的特征空间已不足以表达有效的语言含义。因此,传统的文本信息处理方法在短文本的内容挖掘时准确性较差,不适合用于短文本的主题特征词抽取和情感极性判断。

发明内容

本发明的目的是提出一种主题特征词抽取方法及系统、情感极性判断方法及系统,可以应用到短文本信息处理技术领域,实现短文本主题特征词的准确抽取和情感极性的准确判断。

为了解决上述技术问题,本发明采用了下述技术方案:

本发明提出一种主题特征词抽取方法,其包括以下步骤:

获取社交网络评论的文本数据;

对文本数据进行预处理,预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词;

将每条短文本的分词在各自短文本范围内自由组合成词对,并将词对表示成词向量的形式;

给定参数T作为短文本中需要抽取出的主题特征词的数量;

根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布;

利用吉布斯采样得到主题的多项式分布,吉布斯采样的过程如下:对文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布;

针对主题的多项式分布,将主题按照出现频次进行排列,并根据排列结果抽取主题特征词。

优选的,预处理的过程还包括以下步骤:针对分词,统计分词的词频,去除出现频率低于3次的词语。

优选的,预处理的过程还包括以下步骤:针对分词,去除无实际意义的词语。

优选的,吉布斯采样的过程还包括:

利用贝叶斯公式表示出词对、情感极性与主题的联合概率分布:p(b,l,z|α,β,γ)=p(b|l,z,β)·p(l|z,γ)·p(z|α),其中,b为词对,l为情感极性,z为主题;

通过对词对求积分得到词对的概率分布:

其中,Γ为伽玛函数,i表示第i个词对,j表示第j个主题,k表示第k个情感极性,V为词汇表,T为主题的数量,S为情感极性的数量,ni,j,k为第i个词对指派为主题j和情感极性k的次数;nj,k为指派为主题j和情感极性k的词对数量;

通过对情感极性π求积分得到情感极性的概率分布:

其中,Γ为伽玛函数,j表示第j个主题,k表示第k个情感极性,T为主题的数量,nj,k为指派为主题j和情感极性k的词对数量,nj为指派为主题j的词对数量;

通过对主题θ求积分得到主题的概率分布:

其中,nd,j为短文本d中确定主题j的词对数量,nd为短文本d中的词对数量,D为短文本的数量;

结合伽玛函数,得到简化的联合概率分布:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710542760.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top