[发明专利]一种基于依存关系抽取评价对象的方法有效
申请号: | 201710783711.4 | 申请日: | 2017-09-01 |
公开(公告)号: | CN107480142B | 公开(公告)日: | 2021-04-27 |
发明(设计)人: | 杨晓燕 | 申请(专利权)人: | 闽江学院 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/186 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊;丘鸿超 |
地址: | 350108 福建省*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 依存 关系 抽取 评价 对象 方法 | ||
本发明涉及一种基于依存关系抽取评价对象的方法。包括:S1、定义观点评价对象词与情感词之间的依存关系;S2、基于步骤S1定义的观点评价对象词与情感词之间的依存关系,构建观点评价对象词与情感词之间的直接依存关系模板和间接依存关系模板;S3、基于依存关系模板抽取观点评价对象的Bootstrapping算法。本发明方法相对于最新的方法性能上有较大提高。
技术领域
本发明涉及一种基于依存关系抽取评价对象的方法。
背景技术
1、观点评价对象抽取的国内外研究现状
目前观点评价对象抽取算法可以归结为监督的机器学习(supervised machinelearning)、无监督的机器学习(unsupervised machine learning)、半监督的机器学习(semi-supervised learning)。
监督的机器学习方法将观点评价对象抽取问题看成是标注问题。这方面的代表方法有张磊[7]引入词形、词性、依存关系结构、距离、路径等特征模板,利用最大熵模型进行训练,提取观点评价对象-情感词对。袁璐[8]对句子进行浅层句法分析并制定相应规则,再结合隐马尔科夫模型进行训练。戴敏[9]引入词形、依存关系、语义角色标注等特征基于条件随机场模型进行观点评价对象抽取。以上方法均采用监督学习的方法进行观点评价对象识别,这些方法需要标注大量的训练数据,费时费力,而且不同领域的训练数据无法共享,这大大影响了监督机器学习方法的适用性。
无监督机器学习方法抽取观点评价对象主要采用模板和规则两种方法[10-13]。Hu[10]基于Apiori算法获得频繁项作为候选观点评价对象,对于低频词采用抽取情感词最近的名词作为观点评价对象,该方法算法简单,但情感词最近的名词未必是观点评价对象。张凌[11]提出将待分析文本与词性模板库匹配从而提取情感要素的方法,但该方法只考虑词性信息,同时观点评价对象词的搜索范围局限在情感词所在的分句中。Bloom[12]人工构建了31条句法规则来描述情感词与观点评价对象词之间的关系。顾正甲[13]使用SBV极性传递法从待分析文本中抽取原子观点评价对象,再采用ATT链算法及互信息算法实现观点评价对象的边界识别,但该方法仅考虑定中关系ATT和“的”字结构DE这两种依存关系形式。总的来说,无监督的机器学习方法不需标注语料,能降低成本,但是由于模板、规则构造不完备,因此泛化能力较差,获取的观点评价对象准确率较低。
针对中文语料库规模较小的不足之处,许多学者采用半监督学习算法抽取观点评价对象。半监督机器学习算法能够避免数据和资源的浪费,同时解决监督学习算法的模型泛化能力不强和无监督学习算法的模型不精确等问题,已经被应用于解决实际问题,尤其是自然语言处理问题。半监督机器学习的一种主流方法是自举(Bootstrapping)方法[6]。该方法通过人工干预得到种子,然后增量式地迭代,在每一轮迭代中,都将产生新的种子,用这些新的种子重新训练模型,如此循环往复,直到最终收敛结束。Wei[14]将候选观点评价对象的同义词、近义词标注为候选观点评价对象,再重新训练模型,但该方法带入许多低频词汇影响识别性能。Shu[15]采用图模型识别观点评价对象与情感词,把观点评价对象与情感词看作是一个评价搭配关系对,每增加m个候选观点评价对象就产生n个候选情感词,这样不断迭代产生观点评价对象与情感词,该方法不足之处是只考虑候选观点评价对象与情感种子词的共现率,召回率较低。宋晓雷[16]从小种子集和词形模板、词性模板集出发通过双向Bootstrapping方法识别观点评价对象,但这种方法只考虑词形、词性信息,没有利用情感词与观点评价对象词之间的语法信息。Qiu[2]提出利用小规模种子情感词以及观点评价对象和情感词之间的依存关系,通过观点评价对象和情感词之间的双向传播策略,增量式地识别新情感词和观点评价对象,但该方法只能抽取与情感词之间存在指定依存关系的观点评价对象。Zhang[3]扩展了Qiu[2]的工作,设计启发式模板抽取观点评价对象。Liu[4]利用Qiu[2]定义的依存关系构造部分监督的词语对齐模型。Wang[5]利用词语对齐模型与Qiu[2]模型相结合的方法进行观点挖掘。
2、现有技术的相关概念
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于闽江学院,未经闽江学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710783711.4/2.html,转载请声明来源钻瓜专利网。