[发明专利]一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法有效

专利信息
申请号: 201610001346.2 申请日: 2016-01-05
公开(公告)号: CN105468791B 公开(公告)日: 2019-11-15
发明(设计)人: 吕学强;刘克会;董志安 申请(专利权)人: 北京信息科技大学;北京市新技术应用研究所
主分类号: G06F16/953 分类号: G06F16/953;G06F16/29
代理公司: 暂无信息 代理人: 暂无信息
地址: 100192北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于互动问答社区‑百度知道的地理位置实体的完整性表达方法,包括以下步骤:步骤1):通过数据处理提取缺陷地理位置实体defectLoc;步骤2):对提取的defectLoc生成问题:“某defectLoc属于哪个区”,通过百度知道进行检索;步骤3):根据检索的结果提取特征,计算defectLoc属于各个区域的得分,并构建出defectLoc的所属区域特征向量;步骤4):利用规则对defectLoc进行完整化处理。本发明以微博城市投诉文本为基础,针对其中的地理位置实体表达不规范、非结构化的特点,使得工作人员很难进行统计分析工作,本发明提出一种基于百度知道的地理位置实体的完整性表达方法,对缺陷地理位置实体完整化具有较高的准确率,可以很好地满足实际应用的需要。
搜索关键词: 一种 基于 互动 问答 社区 百度 知道 地理位置 实体 完整性 表达 方法
【主权项】:
1.一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法,其特征在于,包括以下步骤:/n步骤1):通过数据处理提取缺陷地理位置实体;其中,缺陷地理位置实体为区域缺失或者区域模糊的地理位置实体,记为defectLoc;/n步骤2):对步骤1)提取的defectLoc生成问题:“某defectLoc属于哪个区”,通过百度知道进行检索;/n步骤3):根据步骤2)检索的结果提取特征,计算defectLoc属于各个区域的得分,并构建出defectLoc的所属区域特征向量;/n所述步骤3)具体为:/n缺失地理位置实体defectLoc属于区域i的得分Score(areai|defectLoc),计算公式如公式(10)所示:/n /n其中RowScore(QAj,areai)为第j条QA所属于区域i的得分,计算公式如公式(11)所示:/nRowScore(QAj,areai)/n =ScoreA(QAj,areai)×simqj×(1+Rec(j))/n ×(1+ScoreI(QAj,Agree))×(1+ScoreT(timej))/n ×(1+Pos(j)) (11)/n根据defectLoc所有区域area的分数值Score,最终构建出defectLoc的得分特征向量/n{/nScore(area1|defectLoc),Score(area2|defectLoc),...,Score(area16|defectLoc)/n};/n其中,i为正整数,且1≤i≤16;/n步骤4):利用规则对defectLoc进行完整化处理,实现地理位置实体完整性表示;/n所述步骤1)具体为:/n步骤A:分析已识别的地理位置实体,判断其是否存在区域信息,存在则退出;不存在转到步骤B;/n步骤B:定位原微博,通过NLPIR进行原始微博的词语切分,并将所有@的内容提取出来组成@数组,判断数组中是否存在唯一区域信息,存在则补全该defectLoc,将其过滤;不存在转到步骤C;/n步骤C:提取待处理的defectLoc,组成defectLoc集合;/n所述步骤3)中提取的特征具体为:/n特征一:内容特征;/n特征二:百度知道特征;/n特征三:搜索反馈特征;/n所述特征一具体为:/n(1)反馈的问答对是否存在区域信息;/n区域的得分ScoreA如公式(1)所示:/nScoreA(QAj,areai)/n =(1-λ)×(areai/10)+λ×(areai%10) (1)/n其中i为第i个区域,j为百度知道反馈的第j个问答对,λ为答案中出现区域信息的权重,λ=0.7;areai计算如公式(2)(3)所示:/n /n /n其中,QA为百度知道反馈的问答对;/n(2)问题相似度集合;/n问题相似度集合记为Simq={simq1,simq2,…,simq10},其中,simq1-10为提出的问题tq与百度知道反馈的问答对QA集合中每个问题的相似度,其计算公式如公式(4)所示:/n /n其中A、B是两个n维向量,A是[A1,A2,…,An],B是[B1,B2,…,Bn],Ai与Bi表示同一字符分别在A、B中出现的频度,n为A、B中所有不重复的单个字符;/n所述特征二具体为:/n(1)是否为推荐答案;/n /n其中,表示推荐答案的权重,/n(2)赞次数;/nScoreI(QAi,Agree)=θ×count(QAi,Agree) (6)/n其中θ为每个赞的权值,θ=0.1,count(QAi,Agree)为第i个QA中的赞数;/n(3)回答时间;/n对回答时间做限制,单位为年,计算公式如公式(7)(8)所示:/ntimei=Now-AnsTimei (7)/n /n其中i为第i个QA,Now为现在的时间,AnsTime为回答问题的时间;/n所述特征三具体为:/n将反馈结果的前3个查询结果看成权重相同的,后面结果随着排名的增加权重逐渐降低,具体分布如公式(9)所示,其中i为第i个QA对;/n /n所述步骤4)中规则具体为:/n规则1:对于明确地理位置实体,存在两种情况,第一、如果检索结果中只含有一个区域信息,则此区域信息为defectLoc的区域信息;第二、如果存在Max(P(areai|defectLoc))≥γ,此areai为defectLoc的区域信息;其中γ=0.5;/n其中明确地理位置实体为检索结果中出现且只出现一个区域,或者Max(P(areai|defectLoc))≥γ的defectLoc,记为clearLoc;其中概率计算公式如式(12)所示:/n /n规则2:对于歧义地理位置实体,利用countLoc对defectLoc进行消歧;其中countLoc为统计每个区域的个数,一条QA中出现多个相同的区域信息,按一次计算,最终得到Max(countLoc|areai),则defectLoc的区域信息为areai;如果Max(countLoc|areai)存在2个或2个以上的区域,取第一个Max(countLoc|areai)的区域信息;/n其中歧义地理位置实体为检索结果中出现了多个区域且Max(P(areai|Location))<γ的defectLoc,记为ambiguityLoc;/n规则3:对于零地理位置实体,无法进行区域补全操作;/n其中零地理位置实体为检索结果中未出现区域信息的defectLoc,记为zeroLoc。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;北京市新技术应用研究所,未经北京信息科技大学;北京市新技术应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201610001346.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top