[发明专利]一种互联网文本蕴含地理实体关系的抽取方法有效

专利信息
申请号: 201610135332.X 申请日: 2016-03-10
公开(公告)号: CN107180045B 公开(公告)日: 2020-10-16
发明(设计)人: 陆锋;余丽;张恒才;彭澎;仇培元;牟乃夏 申请(专利权)人: 中国科学院地理科学与资源研究所
主分类号: G06F16/36 分类号: G06F16/36
代理公司: 暂无信息 代理人: 暂无信息
地址: 100101 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种互联网文本蕴含地理实体关系的抽取方法,包括以下步骤:数据预处理、文档向量化、权值计算、关键词提取、关系元组构建;输入包含地理实体的网络文本,经过数据预处理抽取地理实体间的空间关系或语义关系,得到网页纯文本和候选关键词;采用词语级别的向量空间模型对文本进行向量化,建立word‑context矩阵;设计了新型的权值计算方法对地理实体进行权值计算;从语境向量中选择权值最大的词语作为关键词,构建关系元组,最后完成地理实体抽取。本发明提供了基于语义的检索方式,改变了传统依赖关键词的搜索技术;在缺乏大规模标注语料和地理知识库的前提下,能快速抽取地理关系描述词,提高运行效率,大大的降低人工成本。
搜索关键词: 一种 互联网 文本 蕴含 地理 实体 关系 抽取 方法
【主权项】:
一种互联网文本蕴含地理实体关系的抽取方法,其特征在于:所述抽取方法包括以下步骤:数据预处理:输入包含地理实体的网络文本,抽取地理实体间的空间关系或语义关系,得到原始语料,进一步得到原始语料对应的网页正文文本;对上述网页正文文本进行预处理得到候选关键词;文档向量化:上述网页正文文本进行预处理之后,对文本进行相关的数学计算;采用词语级别的向量空间模型对文本进行向量化,按照下述公式(1)‑(2)计算方法建立词语‑语境矩阵,即word‑context矩阵;(1)(2)其中,C为所有语境的集合,语境的总数为N;语境是一系列词汇的集合;cj为词汇集合W的向量(j=1,2,…,N),向量cj中的元素wij为第i个词语wi在第j个语境中的权值(i=1,2,…,v);权值计算:将输入的网络文本中的地理实体与句子中的其它地理实体组成一对,记作entityA和entityB;假设一对地理实体间隔越远语义越弱,当一对地理实体之间的词语个数大于5时,两者没有关系,不予处理;常用权值计算方法有三种,统计wi在cj中出现的次数方法,记作Frequency;Term Frequency‑Inverse Document Frequency方法记作TF‑IDF;Positive Pointwise Mutual Information方法记作PPMI;观察语料得出以下结论:词语的词性、长度和位置在一定程度上反映了它在句中的重要性;描述地理实体间空间和语义关系的词语大多是简短的名词,例如“东边”、“北部”、“别名”,很少使用3个字以上的词语;关系词大多位于句子尾部,部分位于两个地理实体之间,很少位于句首;基于上述特征,提出以下假设:名词的权值更大;词语越短,权值越大;词语距离entityB越远,权值越大;基于以上假设,设计了新的权值计算方法,如公式(3)‑(6);(3)(4)(5)(6)其中,为词语词性的权值,词语词性记作;为由词性和长度联合作用的影响因子,为词语wi的长度,、、分别为entityA、entityB、wi在句中的位置编号,为由和位置联合作用的影响因子,为值的绝对值,为Frequency、TF‑IDF或PPMI中任意一种权值,为词语wi在语境cj中的权值;关键词提取:经过上述权值计算得到word‑context权值矩阵;每个语境向量中的数字,即矩阵里的行中的数字体现了对应单词在当前语境中的重要性,直接从语境向量中选择权值最大的词语作为关键词,作为每个语境的关系名称;由于每个语境与地理实体对绑定,关键词提取后,即可得到地理实体对的关系;关系元组构建:每个句子提取关键词之后,首先将它与句中的一对地理实体组成一个关系三元组,如公式(7);其中,为句子k存在的关系,和为句子k中的一对地理实体;该三元组的形式将语义关系实例作为属性表达式,用于描述地理实体指定类型的属性值;再采用自适应多元组,将空间关系实例作为位置表达式,描述地理实体间的空间关系和语义关系:若句中存在数量词,且位于entityB右边的3个窗口内,则提取该数量词和单位;根据关键词在句中的位置,按照句子原始的逻辑调整元组中各元素的顺序,并自适应地确定关系的维度以自动补齐数量词,如公式(8);为句子k中描述地理实体关系的数量词;当表示非度量关系时,该元素省去(7)(8)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院地理科学与资源研究所,未经中国科学院地理科学与资源研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610135332.X/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top