[发明专利]指代消解方法及装置有效
申请号: | 202010469113.1 | 申请日: | 2020-05-28 |
公开(公告)号: | CN111626042B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 李巧;伍文成;朱永强 | 申请(专利权)人: | 成都网安科技发展有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/253;G06F40/289 |
代理公司: | 成都极刻智慧知识产权代理事务所(普通合伙) 51310 | 代理人: | 唐维虎 |
地址: | 610000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 指代 消解 方法 装置 | ||
本申请实施例提供一种指代消解方法及装置,通过确定每个训练样本对应的先行语候选集,并根据每个训练样本中的代词类别,为先行语候选集中的每个元素构建特征向量,以用于反映照应语和先行语之间的语义关系,以便于有效发挥语义关系的优势。然后,将先行语候选集中每个元素的特征向量和对应的训练样本的指代消解结果输入最大熵模型进行训练,从而可以采用训练获得的指代消解模型对语句进行指代消解。如此,能够对照应语的上下文语义关系进行充分利用,从而便于后续有效识别先行语和照应语之间的语义关系,提高指代消解的准确率和召回率。
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种指代消解方法及装置。
背景技术
指代是指在语篇中用一个照应语回指某个之前提到过的语言单位,一般将指代语称为照应语,指代的对象或内容称为先行语。通常先行语可以在照应语之前,也可以在之后。例如,如果先行语可以在照应语之前,那么照应语与先行语之间的关系称为照应关系;如果先行语可以在照应语之后,则称为逆照应关系。
指代消解就是确定照应语与先行语的对应关系,相同的照应语也可以指代不同的先行语,确定照应语的先行语的过程就是指代消解的过程。
当前的指代消解方案,无法对照应语的上下文语义关系进行充分利用,导致难以有效识别先行语和照应语之间的语义关系,从而导致指代消解的准确率和召回率较低。
发明内容
基于现有设计的不足,本申请提供一种指代消解方法及装置,能够对照应语的上下文语义关系进行充分利用,从而便于后续有效识别先行语和照应语之间的语义关系,提高指代消解的准确率和召回率。
根据本申请的第一方面,提供一种指代消解方法,应用于计算机设备,所述方法包括:
获取由多个训练样本以及每个训练样本对应的指代消解标签构成的训练样本集,所述训练样本包括对具有指照应语和先行语的训练分句进行预处理后得到的分句特征信息;
确定每个训练样本对应的先行语候选集,并根据每个训练样本中的代词类别,为所述先行语候选集中的每个元素构建特征向量,其中,所述特征向量用于反映照应语和先行语之间的语义关系;
将所述先行语候选集中每个元素的特征向量和对应的训练样本的指代消解结果输入最大熵模型进行训练,得到指代消解模型,其中,所述指代消解模型用于对待指代消解的语句进行指代消解。
在第一方面的一种可能的实施方式中,所述获取由多个训练样本以及每个训练样本对应的指代消解标签构成的训练样本集的步骤,包括:
获取待处理文本并对所述待处理文本进行分段,将分段获得的多个分段文本进行分句,得到多个分句;
对每个分句进行分词获得分词序列,并提取所述分词序列的句法分析特征、词性标注特征和命名实体识别特征,作为每个分句的训练样本;
获取每个分句的训练样本对应的指代消解标签,并将所述指代消解标签关联到对应分句的训练样本,以获得训练样本集。
在第一方面的一种可能的实施方式中,所述根据每个训练样本中的代词类别,为所述先行语候选集中的每个元素构建特征向量的步骤,包括:
针对每个训练样本,当该训练样本中的代词类别为第三人称代词时,根据第三人称代词特征向量提取策略为所述先行语候选集中的每个元素构建第一特征向量;以及
当该训练样本中的代词类别为指示代词时,根据指示代词特征向量提取策略为所述先行语候选集中的每个元素构建第二特征向量。
在第一方面的一种可能的实施方式中,根据第三人称代词特征向量提取策略为所述先行语候选集中的每个元素构建第一特征向量的步骤,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都网安科技发展有限公司,未经成都网安科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010469113.1/2.html,转载请声明来源钻瓜专利网。