[发明专利]一种互联网文本蕴含地理实体关系的抽取方法有效

申请号：	201610135332.X	申请日：	2016-03-10
公开（公告）号：	CN107180045B	公开（公告）日：	2020-10-16
发明（设计）人：	陆锋;余丽;张恒才;彭澎;仇培元;牟乃夏	申请（专利权）人：	中国科学院地理科学与资源研究所
主分类号：	G06F16/36	分类号：	G06F16/36
代理公司：	暂无信息	代理人：	暂无信息
地址：	100101 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种互联网文本蕴含地理实体关系抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种互联网文本蕴含地理实体关系的抽取方法，其特征在于：所述抽取方法包括以下步骤：

数据预处理：输入包含地理实体的网络文本，抽取地理实体间的空间关系或语义关系，得到原始语料，进一步得到原始语料对应的网页正文文本；对上述网页正文文本进行预处理得到候选关键词；

文档向量化：上述网页正文文本进行预处理之后，对文本进行相关的数学计算；采用词语级别的向量空间模型对文本进行向量化，按照下述公式(1)-(2)计算方法建立词语-语境矩阵，即word-context矩阵；

C＝{c₁，c₂，...，c_N} (1)

c_j＝(w_1j，w_2j，...，w_Vj) (2)

其中，C为所有语境的集合，语境的总数为N；语境是一系列词汇的集合；c_j为词汇集合W的向量(j＝1，2，…，N)，向量c_j中的元素w_ij为第i个词语w_i在第j个语境中的权值(i＝1，2，…，v)；

权值计算：将输入的网络文本中的地理实体与句子中的其它地理实体组成一对，记作entityA和entityB；假设一对地理实体间隔越远语义越弱，当一对地理实体之间的词语个数大于5时，两者没有关系，不予处理；常用权值计算方法有三种，统计w_i在c_j中出现的次数方法，记作Frequency；Term Frequency-Inverse Document Frequency方法记作TF-IDF；Positive Pointwise Mutual Information方法记作PPMI；

观察语料得出以下结论：词语的词性、长度和位置反映了它在句中的重要性，提出以下假设：名词的权值更大；词语越短，权值越大；词语距离entityB越远，权值越大；基于以上假设，设计了新的权值计算方法，如公式(3)-(6)；

w_ij＝wgt×D_i (6)

其中，为词语词性的权值，词语词性记作POS；fac为由词性和长度联合作用的影响因子，为词语w_i的长度，I_a、I_b、分别为entityA、entityB、w_i在句中的位置编号，D_i为由fac和位置联合作用的影响因子，为值的绝对值，wgt为Frequency、TF-IDF或PPMI中任意一种权值，w_ij为词语w_i在语境c_j中的权值；

关键词提取：经过上述权值计算得到word-context权值矩阵；每个语境向量中的数字，即矩阵里的行中的数字体现了对应单词在当前语境中的重要性，直接从语境向量中选择权值最大的词语作为关键词，作为每个语境的关系名称；由于每个语境与地理实体对绑定，关键词提取后，即可得到地理实体对的关系；

关系元组构建：每个句子提取关键词之后，首先将它与句中的一对地理实体组成一个关系三元组，如公式(7)；其中，r_k为句子k存在的关系，e_k1和e_k2为句子k中的一对地理实体；该三元组的形式将语义关系实例作为属性表达式，用于描述地理实体指定类型的属性值；

再采用自适应多元组，将空间关系实例作为位置表达式，描述地理实体间的空间关系和语义关系：若句中存在数量词，且位于entityB右边的3个窗口内，则提取该数量词和单位；根据关键词在句中的位置，按照句子原始的逻辑调整元组中各元素的顺序，并自适应地确定关系的维度以自动补齐数量词，如公式(8)；s_k为句子k中描述地理实体关系的数量词；当表示非度量关系时，s_k省去；

r_k＝(e_k1，r_k，e_k2) (7)

r_k＝(e_k1，r_k，e_k2，[s_k]) (8)。

2.根据权利要求1所述的互联网文本蕴含地理实体关系的抽取方法，其特征在于：所述数据预处理的步骤包括：网页爬取、正文提取、分句、中文分词和词性标注、地理实体识别、语境构建；

网页爬取：获取包含地理实体的网络文本，从网络文本中抽取两个地理实体间的空间关系或语义关系；以现有地名数据库中的元素为地理实体，以地理实体为关键词，逐一在搜索引擎中查询相关HTML网页，爬取HTML网页内容作为地理实体关系抽取的原始语料；

正文提取：将爬取到的HTML网页找到相应的网页正文，对网页正文所在的位置进行处理，提取出网页正文纯文本；

分句：将网页正文纯文本拆分成句子，然后以逗号“，”、分号“；”、句号“。”、省略号“…”做为分割点将句子分割成多个子句，并采用简单的规则自动补齐句子中被省略或者替代的主语；对于没有查询词条的句子，若句首是“它”或者“她”，则将其替换成查询的词条，否则在句首添加查询的词条；

中文分词和词性标注：采用Stanfod CoreNLP集成套件对纯文本进行中文分词和词性标注；过滤掉与语义表达无关的停用词，包括标点、字符和虚词；

地理实体识别：对纯文本进行中文分词和词性标注之后，使用Stanfod CoreNLP集成套件识别命名句子中的地理实体，再将标签LOC、GPE和ORG替换为GEO，最后合并多个连续的GEO为一个地理实体；

语境构建：过滤停用词之后，将句中除地理实体对以外的所有名词、动词和介词作为语境，语境中的词语称为候选关键词。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院地理科学与资源研究所，未经中国科学院地理科学与资源研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610135332.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种互联网文本蕴含地理实体关系的抽取方法有效

专利文献下载