[发明专利]一种基于领域词典和语义角色的评价对象抽取方法有效

专利信息
申请号: 201410453074.0 申请日: 2014-09-05
公开(公告)号: CN104268160B 公开(公告)日: 2017-06-06
发明(设计)人: 冯冲;廖纯;杨森;黄河燕 申请(专利权)人: 北京理工大学
主分类号: G06F17/30 分类号: G06F17/30;G06F17/27
代理公司: 暂无信息 代理人: 暂无信息
地址: 100081 北京市*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于领域词典和语义角色的评价对象抽取方法,属于自然语言处理应用技术领域,包括以下步骤首先根据词性、依存和语义角色信息,构建评价对象的领域词典DL,然后充分挖掘词汇、依存、相对位置和语义角色四方面的特征,与DL一起利用条件随机场(CRFs)进行模型训练和预测,从而完成评价对象的抽取工作。对比现有技术,根据中文句子特别是微博、论坛评论信息结构灵活多样、构成方法变化多、句子特征较少的特点,充分利用不同层级句法和语义信息,结合基于规则和机器学习的评价对象抽取方法的优点,自动快速而且准确地找到语料中置信度较高的评价对象,提高了中文句子评价对象抽取的准确率。
搜索关键词: 一种 基于 领域 词典 语义 角色 评价 对象 抽取 方法
【主权项】:
一种基于领域词典和语义角色的评价对象抽取方法,其特征在于,包括以下步骤:步骤一、语料预处理:对语料集S的每一个句子按照规则Rules进行过滤,然后对过滤后的句子集合进行分词、词性标注,得到语料集T;Rules的具体内容如下:规则1:去除纯英文句子;规则2:对句子进行“//”划分,并且使分句顺序倒置;规则3:对句子中用户名和网址进行删除;规则4:对连续出现的多个相同标点符号,用第一个标点符号进行替换,同时去除表情标示符;规则5:对于微博中特殊的“#内容#”,则把较短内容直接作为候选评价对象,较长内容作为一个单独的句子另行分析;规则6:对句子中的代词,选择其前句或后句中的名词性主语将其替换;步骤二、领域词典DL构建:首先通过对语料集T进行分析,总结出词性序列模板集合posT,并将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配,得到评价对象集合A;然后对T中的每一个句子进行依存结果类型分析,通过分析评价对象与评价词之间的依存关系类型,得到评价对象集合B;接下来通过一个基于语义角色的评价对象提取算法,得到评价对象集合C;最后,对集合A、B、C取并集,得到集合D,作为最终的DL;所述posT的获取过程如下:首先对语料集T中的词性标注进行替换,将属于比较词、主张词和程度副词的词语的词性标注改成cmp,aw和adv;对于T中的每一个句子,提取其评价对象前两个、前一个、后两个、后一个词与评价对象的词性一起作为模板提取出来,如果评价对象不是一个单独的词,而是由多个词的组合,则将这些组合词的词性,组合起来形成模板;按照这种规则处理T中的所有句子,并计算每一个模板的出现概率;最后,将出现概率最高的m个模板提取出来作为posT,m是一个大于零的自然数;所述集合A的获取过程如下:将posT中的每一个模板分别与T中每一个已分词的句子的词性序列进行匹配,将匹配得到的所有词性序列中词性为名词的词提取出来,去掉重复,构成集合A;所述集合B的获取过程如下:对语料集T中的每个句子进行依存分析,找出与评价词集合O中的词存在ATT或SBV关系的词作为评价对象,加入集合B,然后再选取与已知评级对象B中现存词的关系为COO的词,也添加入B,形成最终的集合B;所述基于语义角色的评价对象提取算法具体内容如下:对于句子中的评价词,如果评价词词性为动词,则选取受事者(即动作的承受者)作为评价对象,而如果评价词词性为形容词,则选取施事者(即动作的发出者)作为评价对象;步骤三、CRFs特征选择:使用词汇特征、依存特征、相对位置特征和语义角色特征作为CRFs的特征;所述词汇特征部分,选择当前词及其词性作为此部分特征;所述依存特征部分,选取当前词与中心词是否存在依存关系、该依存关系的类型、当前词的父节点以及父节点的词性作为此部分特征;所述相对位置特征部分,以当前词与评价词之间的距离是否小于n作为本部分特征,n是一个大于零的自然数;所述语义角色特征部分,选取语义角色名字和评价词词性作为该部分的特征;步骤四、利用CRFs进行评价对象抽取:首先对语料集T进行B,I,O标注,然后将步骤三提取的CRFs特征、步骤二构建的DL以及BIO标注一起加入CRFs进行训练;并使用此训练后的CRFs对步骤三提取的四部分特征和步骤二构建的DL进行评价对象识别,给出BIO分类结果;所述BIO标注的具体过程如下:首先对于每一个句子,找出对应的评价对象;然后遍历该句子分词结果中的每一个词,如果其是该句所对应的评价对象中的第一个词,则标注为B;若其是该句所对应的评价对象中的其他词,则标注为I;其他情况,全部标注为O;步骤五、抽取完成,输出抽取结果OT集合,即分类结果为B或以B开头后跟若干个I的词的组合的集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410453074.0/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top