[发明专利]综合空间实体关系推断文本地理位置的方法和存储介质有效
申请号: | 202110869708.0 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113673240B | 公开(公告)日: | 2023-07-04 |
发明(设计)人: | 曾壮;陈仁谣;程旭阳;李圣文 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216;G06F16/9537 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 魏波 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 综合 空间 实体 关系 推断 文本 地理位置 方法 存储 介质 | ||
1.一种综合空间实体关系推断文本地理位置的方法,其特征在于,包括:
利用标准数据集获取目标词典,并利用String Merging算法获取合并词典;
对所述目标词典中的地名标注权重因子;
使用分词工具对目标文本进行文本分词,获取分词文本;
利用String Merging算法将所述分词文本与所述目标词典中的地名进行匹配,进而获取与所述分词文本中的字符串对应的候选地名;
对所述候选地名进行筛选降噪;
将所述权重因子利用转换公式转换为所述分词文本内每个地名的相对权重,所述转换公式为:
其中,N为地名个数,fn为每个地名对应的权重因子,LCM(W)为N个地名对应权重因子的最小公倍数,n=0,1,2,...,N,P(n)为相对权重的值;
将所述相对权重与地名的经纬度坐标相乘并累加,获得所述分词文本的地理坐标。
2.如权利要求1所述的一种综合空间实体关系推断文本地理位置的方法,其特征在于,所述权重因子包括所述目标词典中地名的不同属性。
3.如权利要求2所述的一种综合空间实体关系推断文本地理位置的方法,所述属性包括所述目标词典中出现的地名的词频、地名类别和地名对应的地理面积。
4.如权利要求1所述的一种综合空间实体关系推断文本地理位置的方法,其特征在于,所述利用String Merging算法获取合并词典包括:
利用所述String Merging算法获取全部合并字符串的集合作为所述合并词典。
5.如权利要求1所述的一种综合空间实体关系推断文本地理位置的方法,其特征在于,所述目标词典是包含所述目标文本中全部地名的过完备词典。
6.如权利要求1所述的一种综合空间实体关系推断文本地理位置的方法,其特征在于,利用String Merging算法将所述分词文本与所述目标词典中的地名进行匹配,进而获取与所述分词文本中的字符串对应的候选地名包括:
若所述分词文本中的第一字符串与目标词典中第一地名相同,则储存所述第一字符串和第一地名;
若第一字符串的长度大于1,并且所述第一字符串被第二地名包含,则继续判断下一字符串是否依然属于所述第一地名;
若所述下一字符串不属于所述第二地名,但再下一个字符属于所述第二地名,则合并所述第一字符串、所述下一字符串和所述再下一个字符串;
若所述第一字符串的下一字符串属于停止符,则结束字符串合并;
若所述第一字符串的两个紧邻字符串均不属于所述第二地名,则结束字符串合并;
重复字符串合并步骤,将得到的所有合并字符串作为候选字符串,从而获得全部候选地名。
7.如权利要求1所述的一种综合空间实体关系推断文本地理位置的方法,其特征在于,对所述候选地名进行筛选降噪包括:
计算获取的字符串列表内的地名Sa和标准地名列表内对应的地名Sb之间的地名向量的余弦相似度,所述余弦相似度Cos_sim的计算公式为:
其中,Sa为字符串列表中的地名,Ba=[a1,a2,a3...an]为Sa对应的地名向量,Sb为字符串列表中的另一个地名,为Sb对应的地名向量;
计算后,若所述余弦相似度Cos_sim的值不小于阈值K,则保留所述地名Sa和所述地名Sb,否则,删除所述地名Sa和所述地名Sb。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110869708.0/1.html,转载请声明来源钻瓜专利网。