[发明专利]一种基于多维词句特征和情感分析的关键新词发现方法在审
申请号: | 201810325081.0 | 申请日: | 2018-04-12 |
公开(公告)号: | CN108268669A | 公开(公告)日: | 2018-07-10 |
发明(设计)人: | 徐新胜;俞飞 | 申请(专利权)人: | 中国计量大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 310018 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分词 多维 词句 重复 情感分析 新词发现 评论 情感词 词性 过滤 预处理 抓取 依存句法分析 测试样本 调整步骤 分词结果 关键作用 评论文本 情感标记 人工筛选 统计结果 文本挖掘 训练样本 依存关系 用户词典 组合过滤 字数 文本 挖掘 优化 统计 分析 | ||
本发明提供了一种基于多维词句特征和情感分析的关键新词发现方法,包括:步骤1,从电商平台抓取需求的评论;步骤2,对评论进行预处理;步骤3,采用NLPIR分词工具对评论进行分词;步骤4,利用多维词句特征对分词后的文本进行重复串的构造及过滤;步骤5,人工筛选训练样本的正确新词;步骤6,对新词进行字数组合以及词性组合的统计;步骤7,根据统计结果调整步骤4中过滤的阈值和加入词性组合过滤,得到测试样本的重复串集;步骤8,添加用户词典优化分词;步骤9,LTP对分词结果进行依存句法分析;步骤10,利用CRF++工具对依存关系中的支配词进行情感标记;步骤11,重复串本身是情感词或者其支配词是情感词的重复串为关键新词。本发明,在通过对大量某类电商产品的评论文本进行新词的挖掘,得到评论中起关键作用的新词,提高了分词的准确性,为文本挖掘分析工作提供了良好的基础。
技术领域
本发明涉及电子商务领域,具体设计一种基于多维词句特征和情感分析的关键新词发现方法。
背景技术
分词技术是中文自然语言处理领域一个非常重要的研究内容。新词发现是优化分词的重要一环。由于在中文信息处理中,不像英文等西方语言,词与词之间有固定的分隔符,所以分词通常作为中文信息处理任务最开始的一个必要步骤。分词任务中所遇到的分词工具字典未包含的词(即未登录词,本文所指新词属于未登录词)会显著影响分词的性能.因此,新词发现对于提高分词准确率,以致后续工作都有重要的意义.然而近年来,个人博客、个性签名、微博、贴吧等应用的出现,允许用户自己生成网页内容,导致类似于“兔波波”、“蓝瘦”等等新词汇大量出现,并以非常快的速度更新,使得新词发现面临更大的挑战。然而,目前关于新词发现的研究主要集中在人名、地名、翻译缩写或者某几个领域术语(如军事、财经等领域)的自动提取。而本发明将对电商平台用户评论文本进行新词发现,从而进行优化分词。
目前新词发现方法主要有:基于规则的方法和基于统计的方法。基于规则的方法是根据语言学特征,包括词性、语义、词法等来匹配候选的重构串。该方法能达到较高的准确率,但是适用范围局限性大。基于统计的方法可分为有监督和无监督两类。有监督的方法需要先对语料进行训练,然后用训练得到的结果对候选重构串进行测试,依赖训练语料和模板设计。无监督的方法则需要设定有效统计量的阈值,词句特征的统计量主要有词本身、词性、左右熵、互信息、TF/IDF,该方法适用范围较大,但是阈值难设定,准确率较低。为了提高新词发现的查准率和查全率,调整合理的阈值,本发明将有采用有监督方法和无监督方法相结合,设计了一种基于多维词句特征和情感分析的关键新词发现方法。
发明内容
(一)要解决的技术问题
本发明提供了一种基于多维词句特征和情感分析的关键新词发现方法,有效地发现评论文本中未被分词工具切分出来的新词,能为文本挖掘工作提供良好的基础。
本发明提出了对候选重复串的字数组合和词性组合进行统计,字数组合为调整构造重复串合理的阈值提供了依据,词性组合过滤能有效的提高重构串的查准率。
本发明提出的有监督和无监督相结合的方法,该方法可以适当的扩大无监督方法的阈值,增加查全率,再用LTP进行句法分析,然后采用有监督的CRF方法,根据情感分析,可以有效地找到评论中具有挖掘价值的关键新词。
(二)技术方案
一种基于多维词句特征和情感分析的关键新词发现方法,其特征在于,所述方法包括:
步骤1,使用网络爬虫技术从电商平台上抓取某类商品的评论文本。爬虫技术是从一个初始网页的URL开始,根据设计的正则表达式抓取网页中的内容和抽取新的URL,直到完成设定的任务为止。将记录数据的网页用dom4j技术提取需要的信息节点解析为文本,持久化处理,存入数据库中。
步骤2,对评论进行预处理,去除无效评论、去除重复评论、去除无效符号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国计量大学,未经中国计量大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810325081.0/2.html,转载请声明来源钻瓜专利网。