[发明专利]一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法有效
申请号: | 201610001346.2 | 申请日: | 2016-01-05 |
公开(公告)号: | CN105468791B | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 吕学强;刘克会;董志安 | 申请(专利权)人: | 北京信息科技大学;北京市新技术应用研究所 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/29 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 互动 问答 社区 百度 知道 地理位置 实体 完整性 表达 方法 | ||
本发明涉及一种基于互动问答社区‑百度知道的地理位置实体的完整性表达方法,包括以下步骤:步骤1):通过数据处理提取缺陷地理位置实体defectLoc;步骤2):对提取的defectLoc生成问题:“某defectLoc属于哪个区”,通过百度知道进行检索;步骤3):根据检索的结果提取特征,计算defectLoc属于各个区域的得分,并构建出defectLoc的所属区域特征向量;步骤4):利用规则对defectLoc进行完整化处理。本发明以微博城市投诉文本为基础,针对其中的地理位置实体表达不规范、非结构化的特点,使得工作人员很难进行统计分析工作,本发明提出一种基于百度知道的地理位置实体的完整性表达方法,对缺陷地理位置实体完整化具有较高的准确率,可以很好地满足实际应用的需要。
技术领域
本发明属于微博城市投诉文本中地理位置实体的完整性表达技术领域,具体涉及一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法。
背景技术
近几年,随着微博问政的兴起,越来越多的政府部门开设官方微博和百姓互动。对于微博城市投诉信息来说,由于每天收到的投诉微博数量巨大,地理位置实体有时会缺少区域信息。一条完整的地理位置实体应包括地名区域和地名两部分,例如“朝阳区豆各庄乡富力又一城”。而微博城市投诉文本中地理位置实体存在如下现象:一、地名区域缺失,如“中关村”;二、地名区域模糊,如“长安街”。由于地名区域缺失或模糊现象的存在,从而对工作人员的统计分析工作带来了极大的困难,以致于工作人员很难统计各个区域的事故发生量而不能及时预防事故的发生。本发明将存在上述两种情况的地理位置实体统称为缺陷地理位置实体,记为defectLoc。而且,随着时间的推移,地名及区域信息也随之变化,使得分析地名从属区域变得更加困难,例如“崇文门新景家园”原属于崇文区,而现在属于东城区,如何及时发现地名所属区域信息的变化变得尤为重要。对地理位置实体进行完整性表示,添加缺失的区域信息,如将“中关村”规范化为“海淀区中关村”或确定化模糊区域如将“长安街”规范化为“东城区长安街”或“西城区长安街”,可以方便城市管理人员进行统计与分析,进一步发现地区存在的问题,并对其进行预防,实现预警功能,对以后的工作提供决策支持。
目前,国内的研究均集中在地名与地理位置实体的识别上,对于地理位置实体的完整性研究较少。针对缺失的区域信息的问题,相关研究多通过构建地理本体和地理知识库解决该问题。但构建地理本体和地理知识库需要领域专家的参与,并且对已构建的地理本体和地理知识库进行一致性、完整性维护,维护如此庞大的地理本体和地理知识库需要耗费较大的人力,并且无法及时对数据进行更新,尤其是在隶属关系上发生变化时,通常需要对较多的节点进行修改,不易做到实时性。
发明内容
针对上述现有技术中存在的问题,本发明的目的在于提供一种可避免出现上述技术缺陷的基于互动问答社区-百度知道的地理位置实体完整性表示方法。
为了实现上述发明目的,本发明采用的技术方案如下;
一种基于互动问答社区-百度知道的地理位置实体完整性表示方法,包括以下步骤:
步骤1):通过数据处理提取缺陷地理位置实体;其中,缺陷地理位置实体为区域缺失或者区域模糊的地理位置实体,记为defectLoc;
步骤2):对步骤1)提取的defectLoc生成问题:“某defectLoc属于哪个区”,通过百度知道进行检索;
步骤3):根据步骤2)检索的结果提取特征,计算defectLoc属于各个区域的得分,并构建出defectLoc的所属区域特征向量;
步骤4):利用规则对defectLoc进行完整化处理,实现地理位置实体完整性表示。
进一步地,所述步骤1)具体为:
步骤A:分析已识别的地理位置实体,判断其是否存在区域信息,存在则退出;不存在转到步骤B;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;北京市新技术应用研究所,未经北京信息科技大学;北京市新技术应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610001346.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:公共场所人群疏散仿真方法及系统
- 下一篇:信息收集方法及装置