[发明专利]一种互联网文本蕴含地理实体关系的抽取方法有效
| 申请号: | 201610135332.X | 申请日: | 2016-03-10 |
| 公开(公告)号: | CN107180045B | 公开(公告)日: | 2020-10-16 |
| 发明(设计)人: | 陆锋;余丽;张恒才;彭澎;仇培元;牟乃夏 | 申请(专利权)人: | 中国科学院地理科学与资源研究所 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100101 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 互联网 文本 蕴含 地理 实体 关系 抽取 方法 | ||
1.一种互联网文本蕴含地理实体关系的抽取方法,其特征在于:所述抽取方法包括以下步骤:
数据预处理:输入包含地理实体的网络文本,抽取地理实体间的空间关系或语义关系,得到原始语料,进一步得到原始语料对应的网页正文文本;对上述网页正文文本进行预处理得到候选关键词;
文档向量化:上述网页正文文本进行预处理之后,对文本进行相关的数学计算;采用词语级别的向量空间模型对文本进行向量化,按照下述公式(1)-(2)计算方法建立词语-语境矩阵,即word-context矩阵;
C={c1,c2,...,cN} (1)
cj=(w1j,w2j,...,wVj) (2)
其中,C为所有语境的集合,语境的总数为N;语境是一系列词汇的集合;cj为词汇集合W的向量(j=1,2,…,N),向量cj中的元素wij为第i个词语wi在第j个语境中的权值(i=1,2,…,v);
权值计算:将输入的网络文本中的地理实体与句子中的其它地理实体组成一对,记作entityA和entityB;假设一对地理实体间隔越远语义越弱,当一对地理实体之间的词语个数大于5时,两者没有关系,不予处理;常用权值计算方法有三种,统计wi在cj中出现的次数方法,记作Frequency;Term Frequency-Inverse Document Frequency方法记作TF-IDF;Positive Pointwise Mutual Information方法记作PPMI;
观察语料得出以下结论:词语的词性、长度和位置反映了它在句中的重要性,提出以下假设:名词的权值更大;词语越短,权值越大;词语距离entityB越远,权值越大;基于以上假设,设计了新的权值计算方法,如公式(3)-(6);
wij=wgt×Di (6)
其中,为词语词性的权值,词语词性记作POS;fac为由词性和长度联合作用的影响因子,为词语wi的长度,Ia、Ib、分别为entityA、entityB、wi在句中的位置编号,Di为由fac和位置联合作用的影响因子,为值的绝对值,wgt为Frequency、TF-IDF或PPMI中任意一种权值,wij为词语wi在语境cj中的权值;
关键词提取:经过上述权值计算得到word-context权值矩阵;每个语境向量中的数字,即矩阵里的行中的数字体现了对应单词在当前语境中的重要性,直接从语境向量中选择权值最大的词语作为关键词,作为每个语境的关系名称;由于每个语境与地理实体对绑定,关键词提取后,即可得到地理实体对的关系;
关系元组构建:每个句子提取关键词之后,首先将它与句中的一对地理实体组成一个关系三元组,如公式(7);其中,rk为句子k存在的关系,ek1和ek2为句子k中的一对地理实体;该三元组的形式将语义关系实例作为属性表达式,用于描述地理实体指定类型的属性值;
再采用自适应多元组,将空间关系实例作为位置表达式,描述地理实体间的空间关系和语义关系:若句中存在数量词,且位于entityB右边的3个窗口内,则提取该数量词和单位;根据关键词在句中的位置,按照句子原始的逻辑调整元组中各元素的顺序,并自适应地确定关系的维度以自动补齐数量词,如公式(8);sk为句子k中描述地理实体关系的数量词;当表示非度量关系时,sk省去;
rk=(ek1,rk,ek2) (7)
rk=(ek1,rk,ek2,[sk]) (8)。
2.根据权利要求1所述的互联网文本蕴含地理实体关系的抽取方法,其特征在于:所述数据预处理的步骤包括:网页爬取、正文提取、分句、中文分词和词性标注、地理实体识别、语境构建;
网页爬取:获取包含地理实体的网络文本,从网络文本中抽取两个地理实体间的空间关系或语义关系;以现有地名数据库中的元素为地理实体,以地理实体为关键词,逐一在搜索引擎中查询相关HTML网页,爬取HTML网页内容作为地理实体关系抽取的原始语料;
正文提取:将爬取到的HTML网页找到相应的网页正文,对网页正文所在的位置进行处理,提取出网页正文纯文本;
分句:将网页正文纯文本拆分成句子,然后以逗号“,”、分号“;”、句号“。”、省略号“…”做为分割点将句子分割成多个子句,并采用简单的规则自动补齐句子中被省略或者替代的主语;对于没有查询词条的句子,若句首是“它”或者“她”,则将其替换成查询的词条,否则在句首添加查询的词条;
中文分词和词性标注:采用Stanfod CoreNLP集成套件对纯文本进行中文分词和词性标注;过滤掉与语义表达无关的停用词,包括标点、字符和虚词;
地理实体识别:对纯文本进行中文分词和词性标注之后,使用Stanfod CoreNLP集成套件识别命名句子中的地理实体,再将标签LOC、GPE和ORG替换为GEO,最后合并多个连续的GEO为一个地理实体;
语境构建:过滤停用词之后,将句中除地理实体对以外的所有名词、动词和介词作为语境,语境中的词语称为候选关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院地理科学与资源研究所,未经中国科学院地理科学与资源研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610135332.X/1.html,转载请声明来源钻瓜专利网。





