[发明专利]融合分布式语义和句义特征的人物关系抽取方法在审
申请号: | 201610866186.8 | 申请日: | 2016-09-29 |
公开(公告)号: | CN106484675A | 公开(公告)日: | 2017-03-08 |
发明(设计)人: | 罗森林;焦龙龙;潘丽敏;郭佳;吴舟婷;陈倩柔 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种融合分布式语义和句义特征的人物关系抽取方法,属于自然语言处理领域。本发明首先利用统计词频特征及Bootstrapping算法,分别在少量有标记的语料和大量无标记的语料中训练得到关系特征词典,然后通过元素距离最优化规则构造语句的三元组实例,融合分布式语义信息及语义信息构造三元组特征空间,最后对三元组进行是非二元判定,利用置信度最大化原则得到人物关系类别。本发明实现了特征关系词典的自动生成,将传统的关系多分类问题转化为三元组是非二元判定问题,更加适应传统的机器学习分类算法,且利用分布式语义信息,提升了关系分类的准确率。 | ||
搜索关键词: | 融合 分布式 语义 特征 人物 关系 抽取 方法 | ||
【主权项】:
一种融合分布式语义和句义特征的人物关系抽取方法,其特征在于,利用统计词频特征及Bootstrapping算法,分别在少量有标记的语料和大量无标记的语料中训练得到关系特征词典,然后通过分布式语义信息结合元素距离最优化规则构造语句的三元组实例,融合词法层及句义特征构造三元组特征空间,最后对三元组进行是非二元判定,利用置信度最大化原则得到人物关系类别,包括如下步骤:步骤1,经过预处理,对带标签的语料进行训练,得到初始种子词集,然后使用Bootstrapping算法对初始种子词集进行拓展,生成关系特征词典,具体步骤如下:步骤1.1,对训练集语料进行划分类别、文本预处理,训练,生成初始种子词集,具体流程如下:步骤1.1.1,将带标记的语料划分到相对应的关系类别Ci(0<i<N,N表示关系类别数量)中,若句子包含多种关系,即将其重复划分入对应的多种类别中;步骤1.1.2,对语料进行预处理,得到分词、词性标注、人名实体识别、每个词的TF‑IDF值及句义结构分析结果;步骤1.1.3,对于每一个类别C,抽取名词和动词作为候选种子词,并计算这些词的关键程度K,K的计算公式如下:K(word)=Σi=1|C|Apear(seni,word)n]]>Apear(sen,word)=wordtfidfword∈sen0word∉sen]]>其中seni表示句子i,word表示候选种子词,|C|表示类别C中句子总数,K(word)表示候选种子词和训练集中所有句子的关联程度,n表示该类所有语句中所含词总数,wordtfidf表示该候选词在训练集中的TF‑IDF值,word∈sen表示词在句子中;步骤1.1.4,根据《同义词林》的编码信息,将候选种子词word所有同义词的K加和表示该词新的关键程度,按最终的K将候选种子词进行排序,然后设定阈值,抽取K大于阈值的词形成该类的初始种子词集,阈值通常与句子数量有关并通过实验得到;步骤1.2,通过步骤1.1抽取的初始种子词集以及大量未标注语料,使用Bootstrapping算法拓展初始种子词集,生成关系特征词典,具体步骤如下:步骤1.2.1,在大量未标注的语料中,抽取名词和动词作为候选词;步骤1.2.2,分别考虑每一个关系类别C中的种子词集,利用互信息的方法计算M值,计算公式为:M=Σsword⋐clogP(w,sword)P(w)*P(sword)]]>P(w,sword)=F(w,sword)Fall]]>P(w)=F(w)Fall]]>P(sword)=F(sword)Fall]]>其中sword表示种子词,F(w)表示在整个语料中包含w的语句数;F(sword)表示整个语料中包含初始词sword的句子数;共现频数F(w,sword)表示候选词与初始词sword出现在同一个句子的句子数;Fall表示整个语料中的句子总数;步骤1.2.3,选择出来满足F(w)>Fmin(w)且M>Mmin的词与种子词集合并作为新的种子词集,其中,Fmin(w)表示最少句子个数,设为5个,Mmin是设置的最小权重;步骤1.2.4,重复步骤1.2.2、1.2.3直到没有新的满足条件的词产生为止,通过上述步骤自动生成了所有类别的关系特征词典;步骤2,三元组特征空间构造,定义<人物‑关系‑人物>为一个关系三元组实例,通过是非二元判定人物关系属性的归属,将多分类问题转化为二分类问题,具体步骤如下:步骤2.1,抽取每一句中的人名实体,得到该句的人名列表<Name1、Name2、…Namen>,将列表中所有的人名两两搭配,形成配对关系<(Name1、Name2)、(Name2、Name3)、…、(Namen‑1、Namen)>;步骤2.2,利用步骤1生成的关系特征词典,得到语句中的关系特征词表<W1、W2、…Wm>,依次加入配对关系,穷举构成三元组实例<(Namei,Wk,Namej)>,对于每一个i、j、k,满足0<i<=n,0<j<=n,0<k<=m;步骤2.3,计算特征词表<W1、W2、…Wm>和人名列表<Name1、Name2、…Namen>中每个元素的词向量,得到每个特征词的词向量W_Vec,和每个人名的词向量NameVeci;步骤2.4,利用深度学习中的word2vec方法,和字串匹配的方法,分别获取数据集中每个词汇的词向量和三元组实例中三元素在句子中位置,对于每种位置信息组合<(pos(Namei),pos(Wk),pos(Namej))>,结合词汇组合<(Namei,Wk,Namej)>的语义信息,计算距离d,公式如下:d=dis(pos(Namei),pos(Namej))/dim(NameVeci,NameVecj)+dis(pos(Namei),pos(Wk))/dim(NameVeci,W_Veck)+dis(pos(Wk),pos(Namej))/dim(NameVecj,W_Veck)其中,pos(Namei)表示Namei在句子中字符位置,dis(pos(Namei),pos(Namej))表示两个人物实体的相隔词数,dis(pos(Namei),pos(Wk))表示关系词k与实体i的相隔词数,dim(NameVeci,NameVecj)表示两个词向量之间的相似度,两个词语的越语义相近时,dim(NameVeci,NameVecj)就越大,反之越小,标点按5个字符计算,选择使d取最小时的组合表示三元组实例的位置信息;步骤2.5,若位置信息中dis>dismin,d>dmin(dmin表示可接受的最小距离阈值),则排除该三元组实例,得到最终的三元组实例结果;步骤2.6,选用22种词法层及句义特征组合构造特征空间,在此空间上用向量表示每一个三元组实例;步骤3,通过三元组是非二元判定,得到最终的人物关系判定结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610866186.8/,转载请声明来源钻瓜专利网。