[发明专利]一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法有效

申请号：	201610001346.2	申请日：	2016-01-05
公开（公告）号：	CN105468791B	公开（公告）日：	2019-11-15
发明（设计）人：	吕学强;刘克会;董志安	申请（专利权）人：	北京信息科技大学;北京市新技术应用研究所
主分类号：	G06F16/953	分类号：	G06F16/953;G06F16/29
代理公司：	暂无信息	代理人：	暂无信息
地址：	100192北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于互动问答社区百度知道地理位置实体完整性表达方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法，其特征在于，包括以下步骤：

步骤1)：通过数据处理提取缺陷地理位置实体；其中，缺陷地理位置实体为区域缺失或者区域模糊的地理位置实体，记为defectLoc；

步骤2)：对步骤1)提取的defectLoc生成问题：“某defectLoc属于哪个区”，通过百度知道进行检索；

步骤3)：根据步骤2)检索的结果提取特征，计算defectLoc属于各个区域的得分，并构建出defectLoc的所属区域特征向量；

所述步骤3)具体为：

缺失地理位置实体defectLoc属于区域i的得分Score(area_i|defectLoc)，计算公式如公式(10)所示：

其中RowScore(QA_j，area_i)为第j条QA所属于区域i的得分，计算公式如公式(11)所示：

RowScore(QA_j，area_i)

＝ScoreA(QA_j，area_i)×simq_j×(1+Rec(j))

×(1+ScoreI(QA_j，Agree))×(1+ScoreT(time_j))

×(1+Pos(j)) (11)

根据defectLoc所有区域area的分数值Score，最终构建出defectLoc的得分特征向量

{

Score(area₁|defectLoc)，Score(area₂|defectLoc)，...，Score(area₁₆|defectLoc)

}；

其中，i为正整数，且1≤i≤16；

步骤4)：利用规则对defectLoc进行完整化处理，实现地理位置实体完整性表示；

所述步骤1)具体为：

步骤A：分析已识别的地理位置实体，判断其是否存在区域信息，存在则退出；不存在转到步骤B；

步骤B：定位原微博，通过NLPIR进行原始微博的词语切分，并将所有@的内容提取出来组成@数组，判断数组中是否存在唯一区域信息，存在则补全该defectLoc，将其过滤；不存在转到步骤C；

步骤C：提取待处理的defectLoc，组成defectLoc集合；

所述步骤3)中提取的特征具体为：

特征一：内容特征；

特征二：百度知道特征；

特征三：搜索反馈特征；

所述特征一具体为：

(1)反馈的问答对是否存在区域信息；

区域的得分ScoreA如公式(1)所示：

ScoreA(QA_j，area_i)

＝(1-λ)×(area_i/10)+λ×(area_i％10) (1)

其中i为第i个区域，j为百度知道反馈的第j个问答对，λ为答案中出现区域信息的权重，λ＝0.7；area_i计算如公式(2)(3)所示：

其中，QA为百度知道反馈的问答对；

(2)问题相似度集合；

问题相似度集合记为Simq＝{simq₁，simq₂，…，simq₁₀}，其中，simq_1-10为提出的问题tq与百度知道反馈的问答对QA集合中每个问题的相似度，其计算公式如公式(4)所示：

其中A、B是两个n维向量，A是[A1，A2，…，An]，B是[B1，B2，…，Bn]，A_i与B_i表示同一字符分别在A、B中出现的频度，n为A、B中所有不重复的单个字符；

所述特征二具体为：

(1)是否为推荐答案；

其中，表示推荐答案的权重，

(2)赞次数；

ScoreI(QA_i，Agree)＝θ×count(QA_i，Agree) (6)

其中θ为每个赞的权值，θ＝0.1，count(QA_i，Agree)为第i个QA中的赞数；

(3)回答时间；

对回答时间做限制，单位为年，计算公式如公式(7)(8)所示：

time_i＝Now-AnsTime_i (7)

其中i为第i个QA，Now为现在的时间，AnsTime为回答问题的时间；

所述特征三具体为：

将反馈结果的前3个查询结果看成权重相同的，后面结果随着排名的增加权重逐渐降低，具体分布如公式(9)所示，其中i为第i个QA对；

所述步骤4)中规则具体为：

规则1：对于明确地理位置实体，存在两种情况，第一、如果检索结果中只含有一个区域信息，则此区域信息为defectLoc的区域信息；第二、如果存在Max(P(area_i|defectLoc))≥γ，此area_i为defectLoc的区域信息；其中γ＝0.5；

其中明确地理位置实体为检索结果中出现且只出现一个区域，或者Max(P(area_i|defectLoc))≥γ的defectLoc，记为clearLoc；其中概率计算公式如式(12)所示：

规则2：对于歧义地理位置实体，利用countLoc对defectLoc进行消歧；其中countLoc为统计每个区域的个数，一条QA中出现多个相同的区域信息，按一次计算，最终得到Max(countLoc|area_i)，则defectLoc的区域信息为area_i；如果Max(countLoc|area_i)存在2个或2个以上的区域，取第一个Max(countLoc|area_i)的区域信息；

其中歧义地理位置实体为检索结果中出现了多个区域且Max(P(area_i|Location))＜γ的defectLoc，记为ambiguityLoc；

规则3：对于零地理位置实体，无法进行区域补全操作；

其中零地理位置实体为检索结果中未出现区域信息的defectLoc，记为zeroLoc。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京信息科技大学;北京市新技术应用研究所，未经北京信息科技大学;北京市新技术应用研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610001346.2/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于互动问答社区-百度知道的地理位置实体的完整性表达方法有效

专利文献下载