[发明专利]一种互联网文本蕴含地理实体关系的抽取方法有效
| 申请号: | 201610135332.X | 申请日: | 2016-03-10 |
| 公开(公告)号: | CN107180045B | 公开(公告)日: | 2020-10-16 |
| 发明(设计)人: | 陆锋;余丽;张恒才;彭澎;仇培元;牟乃夏 | 申请(专利权)人: | 中国科学院地理科学与资源研究所 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36 |
| 代理公司: | 暂无信息 | 代理人: | 暂无信息 |
| 地址: | 100101 *** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 互联网 文本 蕴含 地理 实体 关系 抽取 方法 | ||
本发明公开了一种互联网文本蕴含地理实体关系的抽取方法,包括以下步骤:数据预处理、文档向量化、权值计算、关键词提取、关系元组构建;输入包含地理实体的网络文本,经过数据预处理抽取地理实体间的空间关系或语义关系,得到网页纯文本和候选关键词;采用词语级别的向量空间模型对文本进行向量化,建立word‑context矩阵;设计了新型的权值计算方法对地理实体进行权值计算;从语境向量中选择权值最大的词语作为关键词,构建关系元组,最后完成地理实体抽取。本发明提供了基于语义的检索方式,改变了传统依赖关键词的搜索技术;在缺乏大规模标注语料和地理知识库的前提下,能快速抽取地理关系描述词,提高运行效率,大大的降低人工成本。
技术领域
本发明涉及一种互联网文本抽取方法,尤其涉及一种互联网文本蕴含地理实体关系的抽取方法。
背景技术
实体关系抽取研究核心是自动从互联网文本数据中抽取命名实体之间的联系,形成网状关系网络,方便用户查询实体各方面信息。例如“中国大陆阿里巴巴集团董事局主席马云”,可以抽取实体“阿里巴巴”与“马云”是雇佣关系。地理实体关系抽取研究是实体关系研究的子集,目的是从互联网网络文本中抽取地理实体之间的关系。例如:从“遥感所位于地理所的北面”中可以抽取实体“地理所”与“遥感所”,存在方位关系“北面”。
地理实体关系通常可以分为空间关系与语义关系。空间关系表示两个空间实体之间的在地理场景中的各种绝对与相对的位置关系,例如“附近”、“相邻”、“远近”等。部分地理实体之间的位置关系是可计算的,例如北京距离济南为500公里,但是不能描述所有的定性的空间关系描述,例如“远近”。如果要准备获取地理实体的实体关系,需要通过文本中进行抽取。
地理实体关系抽取是构建地理知识图的研究基础,识别并抽取地理实体间的空间和语义关系,构建铰链的地图数据库,是改善基于位置服务的用户体验的关键。地理信息泛化已成为新地理信息时代重要的发展趋势之一。泛化地理信息更加关注地理实体之间复杂的动态关系,如时变空间关系和语义关系等。而目前国内各大地图数据服务提供商(如四维图新、天地图、百度、高德等)提供的地图数据缺乏地理实体之间的关系描述,千万级的地理实体存储“扁平化”。地理实体存储“扁平化”,地理实体关系描述欠缺,导致地理信息检索依赖于关键词,不能有效发挥基于实体关系的内容搜索的优势。如何快速识别并抽取地理实体间的空间和语义关系,是地理空间信息服务产业发展面临的难题。
目前,国内外针对解决实体关系抽取的传统技术方法主要有模式匹配法,监督学习法和频率统计法。模式匹配法需要对关系语料库进行深入分析,人工抽取组织关系模式,这种方法虽然准确性较高,但是需要耗费大量的人力物力,并且不适用于文本大范围关系的抽取;监督学习法在提取速度及准确率上都有所提升,但是该方法需要大规模的人工标注语料,开放文本涉及的文本繁杂,长文本、短文本、网络用语等增加了语料库构建难度,并且人工定义的有限关系类型难以适应文本的快速增长和变化;频率统计法要求表征关系的词语频繁出现,难以适用于稀疏分布的地理实体关系实例。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种互联网文本蕴含地理实体关系的抽取方法。
为了解决以上技术问题,本发明采用的技术方案是:一种互联网文本蕴含地理实体关系的抽取方法,包括以下步骤:
数据预处理:输入包含地理实体的网络文本,抽取地理实体间的空间关系或语义关系,得到原始语料,进一步得到原始语料对应的网页正文文本;对上述网页正文文本进行预处理得到候选关键词;
文档向量化:上述网页正文文本进行预处理之后,对文本进行相关的数学计算;采用词语级别的向量空间模型对文本进行向量化,按照下述公式(1)-(2)计算方法建立词语-语境矩阵,即word-context矩阵;
(1)
(2)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院地理科学与资源研究所,未经中国科学院地理科学与资源研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610135332.X/2.html,转载请声明来源钻瓜专利网。





