[发明专利]主题特征词抽取方法及系统、情感极性判断方法及系统在审
申请号: | 201710542760.9 | 申请日: | 2017-07-05 |
公开(公告)号: | CN107357785A | 公开(公告)日: | 2017-11-17 |
发明(设计)人: | 刘东升;王黎明;陈毓蔚 | 申请(专利权)人: | 浙江工商大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 杭州知通专利代理事务所(普通合伙)33221 | 代理人: | 姚宇吉 |
地址: | 310000 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种主题特征词抽取方法及系统、情感极性判断方法及系统,其中的主题特征词抽取方法包括获取社交网络评论的文本数据;对文本数据进行预处理;针对分词,对照停用词表去除停用词;将每条短文本的分词在各自短文本范围内自由组合成词对,并将词对表示成词向量的形式;给定参数作为短文本中需要抽取出的主题特征词的数量;根据先验知识初始化超参数;利用吉布斯采样抽取主题特征词。其中的情感极性判断方法包括利用吉布斯采样得到情感极性的多项式分布,并结合情感字典进行情感极性判断。通过以上方法和系统,可有效提高短文本的主题特征词的抽取准确性和情感极性判断的准确性。 | ||
搜索关键词: | 主题 特征 抽取 方法 系统 情感 极性 判断 | ||
【主权项】:
一种主题特征词抽取方法,其特征在于,包括以下步骤:获取社交网络评论的文本数据;对文本数据进行预处理,所述预处理的过程如下:使用字符串匹配与正则表达式抽取短文本的正文文本;对正文文本进行分词;针对分词,对照停用词表去除停用词;将每条短文本的分词在各自短文本范围内自由组合成词对,并将所述词对表示成词向量的形式;给定参数T作为短文本中需要抽取出的主题特征词的数量;根据先验知识初始化超参数α、β和γ,其中,α为主题的先验分布,β为词对的先验分布,γ为情感极性的先验分布;利用吉布斯采样得到主题的多项式分布,所述吉布斯采样的过程如下:对所述文本数据中的各个短文本进行标号;结合标号,依次选取短文本,针对短文本的每一个词对,根据多项式分布选择一个主题和情感极性,并更新主题和情感极性的多项式分布;采样完成得到后验参数Θ、Φ和Π,其中,Θ为主题的多项式分布,Φ为词对的多项式分布,Π为情感极性的多项式分布;针对主题的多项式分布,将所述主题按照出现频次进行排列,并根据排列结果抽取主题特征词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工商大学,未经浙江工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710542760.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种用于灌装悬浮液体肥料的灌装设备
- 下一篇:一种封箱机