[发明专利]一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法有效
申请号: | 201610001346.2 | 申请日: | 2016-01-05 |
公开(公告)号: | CN105468791B | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 吕学强;刘克会;董志安 | 申请(专利权)人: | 北京信息科技大学;北京市新技术应用研究所 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/29 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100192北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 互动 问答 社区 百度 知道 地理位置 实体 完整性 表达 方法 | ||
1.一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法,其特征在于,包括以下步骤:
步骤1):通过数据处理提取缺陷地理位置实体;其中,缺陷地理位置实体为区域缺失或者区域模糊的地理位置实体,记为defectLoc;
步骤2):对步骤1)提取的defectLoc生成问题:“某defectLoc属于哪个区”,通过百度知道进行检索;
步骤3):根据步骤2)检索的结果提取特征,计算defectLoc属于各个区域的得分,并构建出defectLoc的所属区域特征向量;
所述步骤3)具体为:
缺失地理位置实体defectLoc属于区域i的得分Score(areai|defectLoc),计算公式如公式(10)所示:
其中RowScore(QAj,areai)为第j条QA所属于区域i的得分,计算公式如公式(11)所示:
RowScore(QAj,areai)
=ScoreA(QAj,areai)×simqj×(1+Rec(j))
×(1+ScoreI(QAj,Agree))×(1+ScoreT(timej))
×(1+Pos(j)) (11)
根据defectLoc所有区域area的分数值Score,最终构建出defectLoc的得分特征向量
{
Score(area1|defectLoc),Score(area2|defectLoc),...,Score(area16|defectLoc)
};
其中,i为正整数,且1≤i≤16;
步骤4):利用规则对defectLoc进行完整化处理,实现地理位置实体完整性表示;
所述步骤1)具体为:
步骤A:分析已识别的地理位置实体,判断其是否存在区域信息,存在则退出;不存在转到步骤B;
步骤B:定位原微博,通过NLPIR进行原始微博的词语切分,并将所有@的内容提取出来组成@数组,判断数组中是否存在唯一区域信息,存在则补全该defectLoc,将其过滤;不存在转到步骤C;
步骤C:提取待处理的defectLoc,组成defectLoc集合;
所述步骤3)中提取的特征具体为:
特征一:内容特征;
特征二:百度知道特征;
特征三:搜索反馈特征;
所述特征一具体为:
(1)反馈的问答对是否存在区域信息;
区域的得分ScoreA如公式(1)所示:
ScoreA(QAj,areai)
=(1-λ)×(areai/10)+λ×(areai%10) (1)
其中i为第i个区域,j为百度知道反馈的第j个问答对,λ为答案中出现区域信息的权重,λ=0.7;areai计算如公式(2)(3)所示:
其中,QA为百度知道反馈的问答对;
(2)问题相似度集合;
问题相似度集合记为Simq={simq1,simq2,…,simq10},其中,simq1-10为提出的问题tq与百度知道反馈的问答对QA集合中每个问题的相似度,其计算公式如公式(4)所示:
其中A、B是两个n维向量,A是[A1,A2,…,An],B是[B1,B2,…,Bn],Ai与Bi表示同一字符分别在A、B中出现的频度,n为A、B中所有不重复的单个字符;
所述特征二具体为:
(1)是否为推荐答案;
其中,表示推荐答案的权重,
(2)赞次数;
ScoreI(QAi,Agree)=θ×count(QAi,Agree) (6)
其中θ为每个赞的权值,θ=0.1,count(QAi,Agree)为第i个QA中的赞数;
(3)回答时间;
对回答时间做限制,单位为年,计算公式如公式(7)(8)所示:
timei=Now-AnsTimei (7)
其中i为第i个QA,Now为现在的时间,AnsTime为回答问题的时间;
所述特征三具体为:
将反馈结果的前3个查询结果看成权重相同的,后面结果随着排名的增加权重逐渐降低,具体分布如公式(9)所示,其中i为第i个QA对;
所述步骤4)中规则具体为:
规则1:对于明确地理位置实体,存在两种情况,第一、如果检索结果中只含有一个区域信息,则此区域信息为defectLoc的区域信息;第二、如果存在Max(P(areai|defectLoc))≥γ,此areai为defectLoc的区域信息;其中γ=0.5;
其中明确地理位置实体为检索结果中出现且只出现一个区域,或者Max(P(areai|defectLoc))≥γ的defectLoc,记为clearLoc;其中概率计算公式如式(12)所示:
规则2:对于歧义地理位置实体,利用countLoc对defectLoc进行消歧;其中countLoc为统计每个区域的个数,一条QA中出现多个相同的区域信息,按一次计算,最终得到Max(countLoc|areai),则defectLoc的区域信息为areai;如果Max(countLoc|areai)存在2个或2个以上的区域,取第一个Max(countLoc|areai)的区域信息;
其中歧义地理位置实体为检索结果中出现了多个区域且Max(P(areai|Location))<γ的defectLoc,记为ambiguityLoc;
规则3:对于零地理位置实体,无法进行区域补全操作;
其中零地理位置实体为检索结果中未出现区域信息的defectLoc,记为zeroLoc。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;北京市新技术应用研究所,未经北京信息科技大学;北京市新技术应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610001346.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:公共场所人群疏散仿真方法及系统
- 下一篇:信息收集方法及装置