[发明专利]一种互联网文本蕴含地理实体关系的抽取方法有效

专利信息
申请号: 201610135332.X 申请日: 2016-03-10
公开(公告)号: CN107180045B 公开(公告)日: 2020-10-16
发明(设计)人: 陆锋;余丽;张恒才;彭澎;仇培元;牟乃夏 申请(专利权)人: 中国科学院地理科学与资源研究所
主分类号: G06F16/36 分类号: G06F16/36
代理公司: 暂无信息 代理人: 暂无信息
地址: 100101 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 互联网 文本 蕴含 地理 实体 关系 抽取 方法
【权利要求书】:

1.一种互联网文本蕴含地理实体关系的抽取方法,其特征在于:所述抽取方法包括以下步骤:

数据预处理:输入包含地理实体的网络文本,抽取地理实体间的空间关系或语义关系,得到原始语料,进一步得到原始语料对应的网页正文文本;对上述网页正文文本进行预处理得到候选关键词;

文档向量化:上述网页正文文本进行预处理之后,对文本进行相关的数学计算;采用词语级别的向量空间模型对文本进行向量化,按照下述公式(1)-(2)计算方法建立词语-语境矩阵,即word-context矩阵;

C={c1,c2,...,cN} (1)

cj=(w1j,w2j,...,wVj) (2)

其中,C为所有语境的集合,语境的总数为N;语境是一系列词汇的集合;cj为词汇集合W的向量(j=1,2,…,N),向量cj中的元素wij为第i个词语wi在第j个语境中的权值(i=1,2,…,v);

权值计算:将输入的网络文本中的地理实体与句子中的其它地理实体组成一对,记作entityA和entityB;假设一对地理实体间隔越远语义越弱,当一对地理实体之间的词语个数大于5时,两者没有关系,不予处理;常用权值计算方法有三种,统计wi在cj中出现的次数方法,记作Frequency;Term Frequency-Inverse Document Frequency方法记作TF-IDF;Positive Pointwise Mutual Information方法记作PPMI;

观察语料得出以下结论:词语的词性、长度和位置反映了它在句中的重要性,提出以下假设:名词的权值更大;词语越短,权值越大;词语距离entityB越远,权值越大;基于以上假设,设计了新的权值计算方法,如公式(3)-(6);

wij=wgt×Di (6)

其中,为词语词性的权值,词语词性记作POS;fac为由词性和长度联合作用的影响因子,为词语wi的长度,Ia、Ib、分别为entityA、entityB、wi在句中的位置编号,Di为由fac和位置联合作用的影响因子,为值的绝对值,wgt为Frequency、TF-IDF或PPMI中任意一种权值,wij为词语wi在语境cj中的权值;

关键词提取:经过上述权值计算得到word-context权值矩阵;每个语境向量中的数字,即矩阵里的行中的数字体现了对应单词在当前语境中的重要性,直接从语境向量中选择权值最大的词语作为关键词,作为每个语境的关系名称;由于每个语境与地理实体对绑定,关键词提取后,即可得到地理实体对的关系;

关系元组构建:每个句子提取关键词之后,首先将它与句中的一对地理实体组成一个关系三元组,如公式(7);其中,rk为句子k存在的关系,ek1和ek2为句子k中的一对地理实体;该三元组的形式将语义关系实例作为属性表达式,用于描述地理实体指定类型的属性值;

再采用自适应多元组,将空间关系实例作为位置表达式,描述地理实体间的空间关系和语义关系:若句中存在数量词,且位于entityB右边的3个窗口内,则提取该数量词和单位;根据关键词在句中的位置,按照句子原始的逻辑调整元组中各元素的顺序,并自适应地确定关系的维度以自动补齐数量词,如公式(8);sk为句子k中描述地理实体关系的数量词;当表示非度量关系时,sk省去;

rk=(ek1,rk,ek2) (7)

rk=(ek1,rk,ek2,[sk]) (8)。

2.根据权利要求1所述的互联网文本蕴含地理实体关系的抽取方法,其特征在于:所述数据预处理的步骤包括:网页爬取、正文提取、分句、中文分词和词性标注、地理实体识别、语境构建;

网页爬取:获取包含地理实体的网络文本,从网络文本中抽取两个地理实体间的空间关系或语义关系;以现有地名数据库中的元素为地理实体,以地理实体为关键词,逐一在搜索引擎中查询相关HTML网页,爬取HTML网页内容作为地理实体关系抽取的原始语料;

正文提取:将爬取到的HTML网页找到相应的网页正文,对网页正文所在的位置进行处理,提取出网页正文纯文本;

分句:将网页正文纯文本拆分成句子,然后以逗号“,”、分号“;”、句号“。”、省略号“…”做为分割点将句子分割成多个子句,并采用简单的规则自动补齐句子中被省略或者替代的主语;对于没有查询词条的句子,若句首是“它”或者“她”,则将其替换成查询的词条,否则在句首添加查询的词条;

中文分词和词性标注:采用Stanfod CoreNLP集成套件对纯文本进行中文分词和词性标注;过滤掉与语义表达无关的停用词,包括标点、字符和虚词;

地理实体识别:对纯文本进行中文分词和词性标注之后,使用Stanfod CoreNLP集成套件识别命名句子中的地理实体,再将标签LOC、GPE和ORG替换为GEO,最后合并多个连续的GEO为一个地理实体;

语境构建:过滤停用词之后,将句中除地理实体对以外的所有名词、动词和介词作为语境,语境中的词语称为候选关键词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院地理科学与资源研究所,未经中国科学院地理科学与资源研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610135332.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top