[发明专利]一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法有效

专利信息
申请号: 201610001346.2 申请日: 2016-01-05
公开(公告)号: CN105468791B 公开(公告)日: 2019-11-15
发明(设计)人: 吕学强;刘克会;董志安 申请(专利权)人: 北京信息科技大学;北京市新技术应用研究所
主分类号: G06F16/953 分类号: G06F16/953;G06F16/29
代理公司: 暂无信息 代理人: 暂无信息
地址: 100192北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 互动 问答 社区 百度 知道 地理位置 实体 完整性 表达 方法
【权利要求书】:

1.一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法,其特征在于,包括以下步骤:

步骤1):通过数据处理提取缺陷地理位置实体;其中,缺陷地理位置实体为区域缺失或者区域模糊的地理位置实体,记为defectLoc;

步骤2):对步骤1)提取的defectLoc生成问题:“某defectLoc属于哪个区”,通过百度知道进行检索;

步骤3):根据步骤2)检索的结果提取特征,计算defectLoc属于各个区域的得分,并构建出defectLoc的所属区域特征向量;

所述步骤3)具体为:

缺失地理位置实体defectLoc属于区域i的得分Score(areai|defectLoc),计算公式如公式(10)所示:

其中RowScore(QAj,areai)为第j条QA所属于区域i的得分,计算公式如公式(11)所示:

RowScore(QAj,areai)

=ScoreA(QAj,areai)×simqj×(1+Rec(j))

×(1+ScoreI(QAj,Agree))×(1+ScoreT(timej))

×(1+Pos(j)) (11)

根据defectLoc所有区域area的分数值Score,最终构建出defectLoc的得分特征向量

{

Score(area1|defectLoc),Score(area2|defectLoc),...,Score(area16|defectLoc)

};

其中,i为正整数,且1≤i≤16;

步骤4):利用规则对defectLoc进行完整化处理,实现地理位置实体完整性表示;

所述步骤1)具体为:

步骤A:分析已识别的地理位置实体,判断其是否存在区域信息,存在则退出;不存在转到步骤B;

步骤B:定位原微博,通过NLPIR进行原始微博的词语切分,并将所有@的内容提取出来组成@数组,判断数组中是否存在唯一区域信息,存在则补全该defectLoc,将其过滤;不存在转到步骤C;

步骤C:提取待处理的defectLoc,组成defectLoc集合;

所述步骤3)中提取的特征具体为:

特征一:内容特征;

特征二:百度知道特征;

特征三:搜索反馈特征;

所述特征一具体为:

(1)反馈的问答对是否存在区域信息;

区域的得分ScoreA如公式(1)所示:

ScoreA(QAj,areai)

=(1-λ)×(areai/10)+λ×(areai%10) (1)

其中i为第i个区域,j为百度知道反馈的第j个问答对,λ为答案中出现区域信息的权重,λ=0.7;areai计算如公式(2)(3)所示:

其中,QA为百度知道反馈的问答对;

(2)问题相似度集合;

问题相似度集合记为Simq={simq1,simq2,…,simq10},其中,simq1-10为提出的问题tq与百度知道反馈的问答对QA集合中每个问题的相似度,其计算公式如公式(4)所示:

其中A、B是两个n维向量,A是[A1,A2,…,An],B是[B1,B2,…,Bn],Ai与Bi表示同一字符分别在A、B中出现的频度,n为A、B中所有不重复的单个字符;

所述特征二具体为:

(1)是否为推荐答案;

其中,表示推荐答案的权重,

(2)赞次数;

ScoreI(QAi,Agree)=θ×count(QAi,Agree) (6)

其中θ为每个赞的权值,θ=0.1,count(QAi,Agree)为第i个QA中的赞数;

(3)回答时间;

对回答时间做限制,单位为年,计算公式如公式(7)(8)所示:

timei=Now-AnsTimei (7)

其中i为第i个QA,Now为现在的时间,AnsTime为回答问题的时间;

所述特征三具体为:

将反馈结果的前3个查询结果看成权重相同的,后面结果随着排名的增加权重逐渐降低,具体分布如公式(9)所示,其中i为第i个QA对;

所述步骤4)中规则具体为:

规则1:对于明确地理位置实体,存在两种情况,第一、如果检索结果中只含有一个区域信息,则此区域信息为defectLoc的区域信息;第二、如果存在Max(P(areai|defectLoc))≥γ,此areai为defectLoc的区域信息;其中γ=0.5;

其中明确地理位置实体为检索结果中出现且只出现一个区域,或者Max(P(areai|defectLoc))≥γ的defectLoc,记为clearLoc;其中概率计算公式如式(12)所示:

规则2:对于歧义地理位置实体,利用countLoc对defectLoc进行消歧;其中countLoc为统计每个区域的个数,一条QA中出现多个相同的区域信息,按一次计算,最终得到Max(countLoc|areai),则defectLoc的区域信息为areai;如果Max(countLoc|areai)存在2个或2个以上的区域,取第一个Max(countLoc|areai)的区域信息;

其中歧义地理位置实体为检索结果中出现了多个区域且Max(P(areai|Location))<γ的defectLoc,记为ambiguityLoc;

规则3:对于零地理位置实体,无法进行区域补全操作;

其中零地理位置实体为检索结果中未出现区域信息的defectLoc,记为zeroLoc。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;北京市新技术应用研究所,未经北京信息科技大学;北京市新技术应用研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610001346.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top