[发明专利]一种利用中文在线资源实现远程监督人物关系抽取的方法有效
申请号: | 201410219184.0 | 申请日: | 2014-05-23 |
公开(公告)号: | CN104035975B | 公开(公告)日: | 2017-07-25 |
发明(设计)人: | 杨静;潘云;郝娟;杨辰翌;黄保荃 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙)31215 | 代理人: | 徐筱梅,张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 暂无信息 | 说明书: | 暂无信息 |
摘要: | 本发明公开了一种利用中文在线资源实现远程监督人物关系抽取的方法,该方法首先利用Web上已经通过半人工化方式形成的在线百科网站自动构建知识库,以获取尽可能全面且准确的关系类型及其人物关系实例。接着提取语料库中所有共现的人名对以及上下文特征,并将人名对与知识库中关系实例相互匹配,得到标记关系的人名对集合和未标记的人名对集合。最后,引入标签传播算法实现未标记人名对的关系匹配,从而实现人物关系抽取。本发明能够自动构建人物关系知识库,其中涵盖了更为丰富、准确的关系类型,基于该知识库,引入标签传播算法实现远程监督的中文人物关系抽取,保证了关系抽取结果的准确性。 | ||
搜索关键词: | 一种 利用 中文 在线 资源 实现 远程 监督 人物 关系 抽取 方法 | ||
【主权项】:
一种利用中文在线资源实现远程监督人物关系抽取的方法,其特征在于该方法包括以下具体步骤:1)构建人物关系知识库D,具体包括:利用中文在线百科来构建知识库,以人名Pn为关键字提交到中文在线百科网站的搜索入口,则显示有关Pn大量信息的页面,其中包括Pn的人际关系信息,并以列表形式呈现在网页中;提取出Pn的人物关系信息<pi,pj,r>并以此构建相同结构的人物关系知识库D,其中pi、pj为人名,r表示人物关系描述词;2)对待抽取人物关系的语料库即生语料库进行标记处理,具体包括:对语料库进行预处理,包括分句、分词、词性标注以及人名识别;抽取出包含至少两个人名的句子,并提取句子中的所有相邻且词距不超过所定阈值的人名对<pi,pj>及其上下文窗口中的文本信息Cpre、Cmid和Cpost,其中Cpre表示句子中pi前的词语集合,Cmid表示pi和pj之间的词语集合,Cpost表示pj后的词语集合;对每一个<pi,pj>,依次查找在知识库中是否存在,若存在,则将该人名对标记上对应的关系r,并添加到标记人物对集合L中;若不存在,则将该人名对添加到未标记的人物对集合U中;3)采用标签传播算法实现为未标记的人物对集合U中人物对匹配最可能的关系r,且r∈RL,RL表示标记人名对集合L中所有关系类型的集合,具体包括:利用标签传播算法,并简化其中已标记的样本数据,在集合L中根据RL将人名对分成|RL|类;在构造转移矩阵T和标签矩阵Y时,将其中的已标记样本节点替换成为关系类型节点;具体来说,m×m的矩阵T中的每个元素根据公式(1)(2)(3)计算,其中m=|RL|+|U|,S(r)表示标记为关系r的所有人名对集合,sim(i,j)是指人名对i和人名对j之间的相似度;由计算公式可知,转移矩阵T是一个对称矩阵;而(|RL|+|U|)×|RL|的矩阵Y,前|RL|行为单位矩阵,由于Y最终收敛,后|U|行的值可随机取值;ti,j=sim(i,j)(i,j∈U) (3)转移矩阵T与标签矩阵Y相乘,得到的矩阵校正前|RL|行为单位矩阵,如此不断与T相乘,得到最终收敛的Y′,将后|U|行中每行的最大值索引所对应的关系类型标记到该行所对应的人名对上;并且,如果Y′中某行的最大值低于设定阈值,则标记该行所对应的人名对的关系类型为“其他”;实现对未标记人名对的关系匹配,即实现了中文人物关系抽取。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410219184.0/,转载请声明来源钻瓜专利网。
- 上一篇:管壳式换热器
- 下一篇:一种磁芯、集成磁元件、有源钳位正反激电路及开关电源