[发明专利]综合空间实体关系推断文本地理位置的方法和存储介质有效
申请号: | 202110869708.0 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113673240B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 曾壮;陈仁谣;程旭阳;李圣文 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F16/9537 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 魏波 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 综合 空间 实体 关系 推断 文本 地理位置 方法 存储 介质 | ||
本发明提供了一种综合空间实体关系推断文本地理位置的方法,包括:目标词典和合并词典两类词典的准备;利用地名的不同属性完成词典内地名的权重因子标注;提出StringMerging(SM)算法完成目标文本内候选地名的提取;利用地名对应的向量表示进行噪声地名的过滤;提出地名权重计算公式,将目标文本内地名的权重因子转化为目标文本内地名的相对权重;利用得到的相对权重与地名的坐标相乘并累加取得目标文本的隐含地理坐标。本发明提出的技术路线可以有效解决现存的获取文本隐含地理位置的方法获取外部知识困难、预测的隐含地理位置的粒度较大等问题,还可以在无监督的情况下有效预测目标文本的经纬度坐标。
技术领域
本发明涉及技术领域,具体涉及综合空间实体关系推断文本地理位置的方法和存储介质。
背景技术
研究表明,如今产生的全部数据中有一大部分是非结构化数据,并且有大约60%的数据(文本数据和其他数据)可以视为地理空间的参考数据。但是由于直接包含空间位置信息的文本仅占全部文本数量的一少部分,因此如何精确的提取剩余文本中隐含的空间位置信息具有非常重要的研究价值。现存的获取文本隐含地理位置的方法均存在一些问题,例如:获取外部知识困难、预测的隐含地理位置的粒度较大等。
发明内容
本发明解决的一个主要问题是现有获取文本隐含地理位置的方法存在获取外部知识困难、预测的隐含地理位置的粒度较大的问题。
根据本发明的一个方面,本发明提供一种综合空间实体关系推断文本地理位置的方法,包括:
利用标准数据集获取目标词典;
对所述目标词典中的地名标注权重因子;
使用分词工具对目标文本进行文本分词,获取分词文本;
利用String Merging算法将所述分词文本与所述目标词典中的地名进行匹配,进而获取与所述分词文本中的字符串对应的候选地名,并获得由合并字符串的集合组成的合并词典;
利用所述合并词典对所述候选地名进行筛选降噪;
将所述权重因子利用转换公式转换为所述分词文本内每个地名的相对权重,所述转换公式为:
其中,N为地名个数,fn为每个地名对应的权重因子,LCM(W)为N个地名对应权重因子的最小公倍数,n指代N个地名中的每一个地名,P(n)为相对权重的值;
将所述相对权重与地名的经纬度坐标相乘并累加,获得所述分词文本的地理坐标。
进一步地,所述权重因子包括所述目标词典中地名的不同属性。
进一步地,所述属性包括所述目标词典中出现的地名的词频、地名类别和地名对应的地理面积。
进一步地,所述利用String Merging算法获取合并词典包括:
利用所述String Merging算法获取全部合并字符串的集合作为所述合并词典。
进一步地,所述目标词典是包含所述目标文本中全部地名的过完备词典。
进一步地,利用String Merging算法将所述分词文本与所述目标词典中的地名进行匹配,进而获取与所述分词文本中的字符串对应的候选地名包括:
若所述分词文本中的第一字符串与目标词典中第一地名相同,则储存所述第一字符串和第一地名;
若第一字符串的长度大于1,并且所述第一字符串被第二地名包含,则继续判断下一字符串是否依然属于所述第一地名。
若所述下一字符串不属于所述第二地名,但再下一个字符属于所述第二地名,则合并所述第一字符串、所述下一字符串和所述再下一个字符串;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110869708.0/2.html,转载请声明来源钻瓜专利网。