[发明专利]一种基于领域词典和语义角色的评价对象抽取方法有效

专利信息
申请号: 201410453074.0 申请日: 2014-09-05
公开(公告)号: CN104268160B 公开(公告)日: 2017-06-06
发明(设计)人: 冯冲;廖纯;杨森;黄河燕 申请(专利权)人: 北京理工大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 领域 词典 语义 角色 评价 对象 抽取 方法
【说明书】:

技术领域

发明涉及一种中文句子评价对象抽取方法,特别涉及一种基于领域词典和语义角色的评价对象抽取方法,属于自然语言处理应用技术领域。

背景技术

随着互联网特别是web2.0的发展,越来越多的人不仅仅通过网络获取信息,而且还更多的参与到网络的交流。博客、微博、论坛的形成发展极大地改变了人们的使用互联网的方式。伴随着互联网的发展,通过人工的方式了解网络的海量信息,对网络上的信息进行整合分析变得越来越困难。对网络文本的抓取和分析技术就是这样的应用背景下应运而生。由于越来越多的网络文本信息,如何使用自然语言处理技术来分析网络的文本是当前研究的一个主题。情感要素抽取是对文本中重要的情感要素比如评价词,评价对象,评价者等进行提取,是细粒度的情感挖掘,也变得越来越重要。

大数据时代的到来,对网络上的信息进行有效的整合分析已经是研究者一个十分重要的研究课题。情感信息抽取,特别是细粒度的情感要素抽取,在近几年得到了越来越多的重视。情感要素抽取对情感信息抽取技术的研究有着十分重要的研究意义,在网络评论信息分析处理、舆情监控、信息预测等领域发挥了越来越重要的影响。

评价对象抽取技术的研究,对上层情感信息检索、分类以及专家系统等进一步的研究,有着十分重要的学术价值。评价对象抽取(Opinion Targets Extraction/Identification)是对句子中观点的指向词进行识别。评价对象指的是句子中表述观点和发表评论所针对的对象;评价词是句子中发表观点所用的词汇,也称为情感词。随着评价对象抽取任务的提出,相继出现了不同的抽取算法,主要分为基于规则的方法和基于机器学习的方法。通常基于规则的方法主要是采用句子中词、词性等模板特征,例如基于关联规则的方法。基于规则的方法对特定领域的效果较好,但是领域适应性较差。基于机器学习的方法在近年来才得以在评价对象抽取任务上进行研究。当前主要有CRFs、HMM、LDA等机器学习模型。基于机器学习的方法,受到目前句子短、特征少、语料库不足等影响,不能满足当前实际使用的需要。

发明内容

本发明的目的是为了解决现有基于规则的评价对象抽取方法领域适应性差、基于机器学习的方法对有限的中文标注语料库不能充分挖掘出特征的问题,提出一种基于领域词典和语义角色的中文句子评价对象抽取方法。

为实现上述目的,本发明所采用的技术方案如下:

本发明技术方案的思想是首先根据词性、依存和语义角色信息,构建评价对象的领域词典DL,然后充分挖掘词汇、依存、相对位置和语义角色四方面的特征,与DL一起利用条件随机场(CRFs)进行模型训练和预测,从而完成评价对象的抽取工作。

一种基于领域词典和语义角色的评价对象抽取方法,该方法包括以下步骤:

步骤一、语料预处理:对语料集S的每一个句子按照规则(Rules)进行过滤,然后对过滤后的句子集合进行分词、词性标注得到语料集T;

步骤二、领域词典(DL)构建:首先通过对语料集T进行分析,总结出词性序列模板集合(posT),并将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配,得到评价对象集合A;然后对T中的每一个句子进行依存结果类型分析,通过分析评价对象与评价词之间的依存关系类型,得到评价对象集合B;接下来通过一个基于语义角色的评价对象提取算法,得到评价对象集合C;最后,对集合A、B、C取并集,得到集合D,作为最终的DL;

步骤三、CRFs特征选择:使用词汇特征、依存特征、相对位置特征和语义角色特征作为CRFs的特征;所述词汇特征部分,选择当前词及其词性作为此部分特征;所述依存特征部分,选取当前词与中心词是否存在依存关系、该依存关系的类型、当前词的父节点以及父节点的词性作为此部分特征;所述相对位置特征部分,以当前词与评价词之间的距离是否小于n作为本部分特征,n是一个大于零的自然数;所述语义角色特征部分,选取语义角色名字和评价词词性作为该部分的特征;

步骤四、利用CRFs进行评价对象抽取:首先对语料集T进行B,I,O标注,然后将步骤三提取的四部分特征、步骤二构建的DL及BIO标注一起加入CRFs进行训练;并使用此训练后的CRFs对步骤三提取的四部分特征和步骤二构建的DL进行评价对象识别,给出BIO分类结果;

步骤五、抽取完成,输出抽取结果OT集合,即分类结果为B或以B开头后跟若干个I的词的集合。

所述Rules包含以下六项内容:

规则1:去除纯英文句子;

规则2:对句子进行“//”划分,并且使分句顺序倒置;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410453074.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top