[发明专利]一种基于多维词句特征和情感分析的关键新词发现方法在审
申请号: | 201810325081.0 | 申请日: | 2018-04-12 |
公开(公告)号: | CN108268669A | 公开(公告)日: | 2018-07-10 |
发明(设计)人: | 徐新胜;俞飞 | 申请(专利权)人: | 中国计量大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310018 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 多维 词句 重复 情感分析 新词发现 评论 情感词 词性 过滤 预处理 抓取 依存句法分析 测试样本 调整步骤 分词结果 关键作用 评论文本 情感标记 人工筛选 统计结果 文本挖掘 训练样本 依存关系 用户词典 组合过滤 字数 文本 挖掘 优化 统计 分析 | ||
1.一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于,所述方法包括:
步骤1,从电商平台抓取需求的评论文本;
步骤2,对评论文本进行预处理;
步骤3,采用NLPIR分词工具对评论文本进行初次分词;
步骤4,利用多维词句特征对分词后的训练文本进行重复串的构造及过滤;
步骤5,人工筛选出待清洗训练文本重复串集中正确的新词;
步骤6,对新词进行字数组合以及词性组合的统计;
步骤7,根据统计结果调整步骤4中过滤的阈值和加入词性组合过滤,得到测试文本重复串集;
步骤8,将测试文本重复串集中无交叠词加入到用户词典,进行优化分词;
步骤9,利用哈工大LTP是优化分词的结果进行依存句法分析;
步骤10,利用CRF++工具对依存关系中的支配词进行情感标记;
步骤11,最终,重复串本身是情感词或者其支配词是情感词的重复串为需要的关键新词。
2.如权利要求1所述的一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于:在步骤2中,预处理有去除无效评论、去除重复评论、去除无效符号。
3.如权利要求1所述的一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于:在步骤4中,基于多维度词句特征,采用n-gram算法构造重复串,该算法包括:词性过滤、词频过滤、停用词过滤、词长过滤;筛选重复串的环节包括:频数过滤、内聚性过滤、左右熵过滤。
4.如权利要求1所述的一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于:在步骤6中,统计出新词的词性组合,如v+v+n、v+n等;统计出新词的字数组合,为步骤4中n-gram算法构造重复串提供阈值合理设定的依据。
5.如权利要求1所述的一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于:在步骤7中,根据步骤6词性组合的统计,筛选重复串的环节增加为:频数过滤、内聚性过滤、左右熵过滤及词性组合过滤。
6.如权利要求1所述的一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于:在步骤8中,由于构造的重复串存在存在交叠现象,比如“屏\幕\亮度”和“屏\幕”,为了确保最终新词的准确率,防止遗漏或者过度组合,这里每次取有交叠重复串的其中一个加入用户词典进行随后新词的判别。
7.如权利要求1所述的一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于:在步骤10中,人工对训练样本的支配词进行情感标记,根据词形、词性、依存关系、支配词、情感标记建立特征模板,CRF++利用特征模板自动生成所需要的特征函数,然后使其对待测样本进行情感标记。
8.如权利要求1所述的一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于:在步骤11中,根据重复串是否为情感词或者其支配词是否为情感词来筛选得到新词,并将带入不同存在交叠现象的重复串的结果合并,得到最终的关键新词集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国计量大学,未经中国计量大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810325081.0/1.html,转载请声明来源钻瓜专利网。