[发明专利]一种基于实体连通图的事件模版构造方法有效
申请号: | 201711071987.6 | 申请日: | 2017-11-03 |
公开(公告)号: | CN107862037B | 公开(公告)日: | 2021-07-16 |
发明(设计)人: | 秦兵;刘铭;刘挺;刘一仝;李嘉伟 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 岳泉清 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实体 连通 事件 模版 构造 方法 | ||
1.一种基于实体连通图的事件模版构造方法,其特征在于:所述方法具体过程为:
步骤一、利用LTP平台上的依存句法关系分析功能得到文本d中每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定定中三元组(z1,z2,z3);
所述LTP平台为哈工大社会计算与信息检索研究中心研发的语言技术平台;
步骤二、视三元组(z1,z2,z3)中的三个元素为三个结点,并构建三条边用于连接(z1,z2)、(z1,z3)和(z2,z3);
所述z1,z2,z3为主谓宾、主动补或定定中;
所述定定中为定语、定语、中心词;
步骤三、将从文本d中抽取到的所有三元组中包含的结点均放入到集合S1中;
利用LTP平台上的分词功能对文本d进行分词,利用word2vec模型将每一个分词转换成词向量;
步骤四、利用词向量计算S1中任两个结点的相似度,如果相似度超过预先定义的阈值,则在两个结点间建立一条边;如果相似度没有超过预先定义的阈值,则不在两个结点间建立一条边;
步骤五、计算由S1中所有结点组成的图中各结点的PageRank值;
步骤六、通过计算任两篇文本对应的图的重合度来确定两篇文本陈述的事件间的关系的度量值,即为关联度;
当计算完文本中陈述的事件间的关联度后,即可形成事件关联分析矩阵,该矩阵的行和列均为文本,矩阵的值代表了文本中陈述的事件间的关联度;
用矩阵的行向量表示对应行代表的文本,将文本表示为文本向量的形式;
步骤七、使用聚类算法K-means对步骤六得到的文本向量进行聚类,将文本向量按照相关度划分到多个文本簇中,形成多个文本簇;
步骤八、构建粗粒度事件模板和细粒度事件模版;
一)、构建粗粒度事件模板:
从文本簇内将事件的核心要素识别出来;核心要素为触发词、参与者和时间;
二)、构建细粒度事件模版:
识别出模板事件元素,然后再从文本簇中针对模板事件元素识别出事件元素对应的值;
所述步骤八中构建粗粒度事件模板中触发词、参与者和时间的确定过程为:
a)对于触发词的选取:
将步骤三得到的每一个向量化的三元组标记为(Arg1,relation,Arg2),
其中relation代表Arg1和Arg2之间的关系;relation是动词,视为事件的触发词,而Arg1和Arg2为名词,代表了参与事件的元素;
假设输入的某一文本簇为C,则由C内的所有文本构成的三元组集合为S2,计算S2中的三元组任意两个relation对应的词语的相似度;
相似度计算过程为:
将relation用词向量表示,通过余弦相似度计算S2中的三元组任意两个relation对应的词语的相似度;
计算完毕相似度后,形成一个relation-relation的矩阵,矩阵的行列均为relation对应的词语,矩阵的值为relation间的相似度;将矩阵的行取和,将和的最大值对应的词语作为事件触发词;
b)对于参与者的选取:
判断与事件触发词处于同一个三元组内的词语是否为名实体,如果词语为名实体则为参与者,如果词语不为名实体则不为参与者;
c)对于时间的选取:
用正则式来表示文本中时间的书写规则,根据正则式将时间提取出来,然后通过判断时间与事件触发词和参与者在文本中的距离来判断此时间是否可插入到粗粒度事件模板中时间对应的单元格内;判断过程为:
时间是否和触发词以及参与者在同一句内同时出现,如果同时出现,则确定该时间能插入到粗粒度事件模板中,否则过滤掉;
所述步骤八中构建细粒度事件模版中识别出模板事件元素,然后再从文本簇中针对模板事件元素识别出事件元素对应的值;具体过程为:
条件1)、
根据《大词林》判断步骤七形成的某一个文本簇中某词语是否为概括性或抽象性的词语,如果词语是概括性词语且抽象程度未达到抽象阈值,则该概括性词语保留,进行2);否则将词语过滤掉;
条件2)、
计算满足条件1的每个概括性词语的权值:
式中,d代表输入的与某类型事件相关的文本簇中的某一篇文本;g代表文本簇中文本的数量;wde和wdf均代表文本d中的某个概括性词语;h代表整个词表的长度;g、h取值为正整数;
所述词表为文本簇中所有文章所包含词语组成的集合,若一个词语在文章中出现多次只取一次放入集合中;
词表的长度为集合中词语的个数;
sim(wde,wdf)代表两个概括性词语之间的相似度;过程为:
采用将wde和wdf先用词向量表示,然后计算余弦相似度;
f(wdf)代表某个概括性词语在某篇文本中出现的频度;f(wde)代表某个概括性词语在某篇文本中出现的频度;
通过计算公式(2),得到根据条件1)过滤得到的每个概括性词语的权值;设定阈值,将概括性词语的权值小于阈值的概括性词语过滤掉,将概括性词语的权值大于等于阈值的概括性词语保留,进行3);
条件3)、
将文本中满足条件2)的第一个概括性词语所在句子提出,组成集合S3,利用LTP平台上的依存句法关系分析功能得到每一句的句法分析结果,对每一句根据句法分析结果抽取主谓宾、主动补、定定中三元组,从S3中抽取包含第一个概括性词语在内的三元组,三元组按照Arg1,relation,Arg2形式构建,计算包含第一个概括性词语的三元组集合中两两relation的相似度,若两两relation相似度的均方差大于等于阈值,则第一个概括性词语过滤掉;若两两relation相似度的均方差小于阈值,则第一个概括性词语为细粒度事件模板的元素;
将文本中满足2)的第二个概括性词语所在句子提出,判断第二个概括性词语是否为细粒度事件模板的元素;直至将文本中满足2)的所有概括性词语判断完;
将细粒度事件模板的元素所在的三元组中的名实体或时间提出,作为细粒度事件模板的元素值填充到细粒度事件模板中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711071987.6/1.html,转载请声明来源钻瓜专利网。