[发明专利]一种文本内的基于语义特征的人称代词指代消解方法有效
申请号: | 201310431571.6 | 申请日: | 2013-09-22 |
公开(公告)号: | CN104462053B | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 仲兆满;姜剑;陈宗华;陈永江;乔磊 | 申请(专利权)人: | 江苏金鸽网络科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 连云港润知专利代理事务所 32255 | 代理人: | 刘喜莲 |
地址: | 222000 江苏省连云港市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种文本内的基于语义特征的人称代词指代消解方法,具体步骤如下:(1)人物识别。对文本进行预处理,所述预处理包括:段落、语句识别、命名实体识别、词性标注;对处理后的文本,确定人物及代词在文本内中的位置。(2)语义特征提取。对识别出的人物及代词根据其各自所在语句及段落信息,提取语义关联词,构建人名及代词语义特征。(3)候选人物选择。针对人物及代词的性别、单复数、距离进行过滤,为代词选择若干符合条件的候选人物。(3)指代关系计算。计算代词与候选人物的语义特征相关度,结合语义特征相关度及两者间的距离,确定代词的指代人物。本发明方法实现了文本内的人称代词指代消解。 | ||
搜索关键词: | 一种 文本 基于 语义 特征 人称 代词 指代 消解 方法 | ||
【主权项】:
1.一种文本内的基于语义特征的人称代词指代消解方法,其特征在于:首先识别文本中的人物;其次提取人物语义特征;再次选择代词的候选人物;最终计算代词与候选人物的指代关系确定代词的指代人物,其具体步骤如下:A:人物识别:对文本进行预处理,所述预处理包括:分词、命名实体识别、词性标注;对处理后的文本,确定人物的人名及代词在文本内中的位置;其操作步骤如下:A1:对文本进行分词处理,其中包括词性标注;A2:顺序提取词性标注为人名nr及代词r的人物词语,并确定人物词语在文本中的位置;B:语义特征提取:对识别出的人物根据其各自所在语句及段落信息,提取语义关联词,构建人名及代词语义特征;其操作步骤如下:B1:确定当前人物在文本中的有效关联范围;B2:在人物有效关联范围内的字符串中,根据分词结果,去停用词,提取人物关联词,构建人物的语义特征;C:候选人物选择:针对人名及代词的性别、单复数、距离进行过滤,为代词选择若干符合条件的候选人物;其操作步骤如下:C1:判断代词的性别、单复数属性;C2:选择代词的先遣人物,判断先遣人物的性别、单复数属性及先遣人物与代词的句子距离属性;C3:根据候选人物选择规则,过滤不满足条件的先遣人物;其具体如下:代词候选人物,包括人名和已被消解的人称代词,并且在代词的前部;利用人物的性别、单复数、距离相关属性构建判断规则,对出现在代词前的人物进行过滤;性别一致性S1:通过明显的人物关联性别特征词来进行人名的性别识别;如果代词与该人物的性别是一致的为1,有一项性别无法判断的为0.5,两项的性别不一致为0;单复数一致性S2:单复数主要分为单数、复数和无单复数三类,对于那些无法判断单复数属性的待消解项就赋值为无单复数;比较代词与候选先行词的单复数,两者单复数一致的话,为1;若有一方无单复数属性则为0.5,不一致则为0;距离属性S3:该属性值可能的值是0,1,2…为代词与先遣人物间隔句子个数;考查代词与先遣人物的句子距离,取值为它们所属句子编号之差的绝对值;判断规则如下:a.若S3>2,该人物不为当前代词候选人物;b.若S1或S2属性词均为0,该人物不为代词的候选人物,排除;D:指代关系计算:计算代词与候选人物的语义特征相关度,结合语义特征相关度及两者间的距离,确定代词的指代人物;其操作步骤如下:D1:计算代词与每一个候选人物的语义特征相关度;D2:根据相关度阈值及两者间的距离属性,确定代词的指代人物;指代关系计算具体如下:(1)计算代词与候选人物的语义特征相关度如果计算得到的相关度大于阈值,则表示代词与候选先行词的语义联系很紧密;而语义联系最高者即为该代词的最优指代结果;利用知网作为语义特征相关度计算的工具,对于两个人物R1和R2,如果R1有n个关联词:W11,W12,……,W1n,R2有m个关联词:W21,W22,……,W2m,R1和R2的相似度是各个概念的相似度之最大值:
(1)计算人物关联词的相似度,取关联词相似度最大值为人物的语义特征相关度;(2)指代关系确定规则对于有多个候选先行词的代词,其候选先行词选择及过滤规则如下:a)如果候选集中候选人物或代词没有关联词,这两者的语义特征相关度默认为相关度阈值;b)若候选集中只有一个候选人物,则该候选先行词即为消解结果,不再进行语义判断;c)候选集中候选人物的关联词分别与代词关联词计算相关度,取相关度大于阈值的候选人物中与代词相关性最大的为代词的指代消解结果;d)如果有两个候选人物与代词的相关度相同,则取距离代词最近的候选人物;如果候选人物与代词的相关度均小于阈值,取距离代词最近的候选人物为指代结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏金鸽网络科技有限公司,未经江苏金鸽网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310431571.6/,转载请声明来源钻瓜专利网。