[发明专利]一种文本情感倾向分析系统在审
申请号: | 201410537881.0 | 申请日: | 2014-10-13 |
公开(公告)号: | CN104281694A | 公开(公告)日: | 2015-01-14 |
发明(设计)人: | 贾岩 | 申请(专利权)人: | 安徽华贞信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 合肥市长远专利代理事务所(普通合伙) 34119 | 代理人: | 程笃庆;黄乐瑜 |
地址: | 230000 安徽省合肥市高*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 情感 倾向 分析 系统 | ||
技术领域
本发明涉及数据网络技术领域,尤其涉及一种文本情感倾向分析系统。
背景技术
为了搜索和竞争情报系统分析企业和产品形象,通常会使用倾向性分析,而按照倾向性的程度将文本分成几类。由于文本的倾向性不仅由极性词、程度词等这些词来决定,还和这些词的相对位置以及和实体词的关系有关,而文本分类只能考虑词的特征,所以目前利用文本分类来判断文本情感倾向性的一些方法准确率都较低。
发明内容
为了解决背景技术中存在的技术问题,本发明提出了一种文本情感倾向分析系统,提高利用文本分类来判断文本情感倾向性的准确率。
本发明提出的一种文本情感倾向分析系统,包括:
样本训练模块,用于接收待分析文本,训练样本,获取判别模板;
实体提取模块,对待判别文本实体提取,过滤不含实体的文本;
特征提取模块,提取文本中的倾向性相关特征;
情感倾向识别模块,利用最大熵方法判别文本倾向性。
优选地,所述倾向性相关特征包括:极性词、维度词、修饰词、否定词。
优选地,对文本进行倾向分析的之前建立实体词典、极性词典、维度词典、修饰词词典以及其它相关词典。
优选地,所述实体提取模块,具体用于:
预处理;
项权重的计算;
根据预处理的训练集;
学习建模,构建出分类器;
利用测试集文档按一定的测试方法测试建立好的分类器的性能,并不断反馈、学习提高该分类器性能,直至达到预定目标。
优选地,所述预处理具体为:根据采用的分类模型将文档集表示成易于计算机处理的形式。
优选地,所述项权重的计算,具体为:根据适宜的权重计算方法表示文档中各项的重要性。
优选地,所述特征提取模块,具体用于:
通过关键词抽取或者特征提取文本中的特征词;
通过向量空间模型将文档向量化;
计算文档之间的相似度,并选择合适算法进行聚类。
本发明中,采集用户企业所在领域的论坛、博客,提取网页中的文本,通过文本情感倾向分析获得文本的情感倾向以及针对的实体(企业、企业产品、竞争对手等),并自动生成企业和竞争对手形象变化图表,以提高利用文本分类来判断文本情感倾向性的准确率。
附图说明
图1为本发明实施例提出的一种文本情感倾向分析系统;
图2为图1中文本分类模块的功能图;
图3为图1中文本聚类模块的功能图。
具体实施方式
如图1所示,本发明实施例提出了一种文本情感倾向分析系统,包括:样本训练模块10,用于接收待分析文本,训练样本,获取判别模板;实体提取模块20,对待判别文本实体提取,过滤不含实体的文本;特征提取模块30,提取文本中的倾向性相关特征(极性词、维度词、修饰词、否定词等);情感倾向识别模块40,利用最大熵方法判别文本倾向性。另外,对文本进行倾向分析的之前建立实体词典、极性词典、维度词典、修饰词词典以及其它相关词典。
其中,实体提取模块20的功能如图2所示,包括:首先是预处理,根据采用的分类模型将文档集表示成易于计算机处理的形式;其次是项权重的计算,根据适宜的权重计算方法表示文档中各项的重要性;再次是根据预处理的训练集(已预知类别的文档)学习建模,构建出分类器;最后利用测试集文档按一定的测试方法测试建立好的分类器的性能,并不断反馈、学习提高该分类器性能,直至达到预定目标。
其中,特征提取模块30的功能如图3所示,包括:通过关键词抽取或者特征提取文本中的特征词,然后通过向量空间模型将文档向量化,最后计算文档之间的相似度,并选择合适算法进行聚类。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽华贞信息科技有限公司,未经安徽华贞信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410537881.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种β-溴代四氢呋喃类化合物的合成方法
- 下一篇:摄像机固定装置