[发明专利]网络信息所属地域识别方法及装置在审
申请号: | 201710141330.6 | 申请日: | 2017-03-10 |
公开(公告)号: | CN106919705A | 公开(公告)日: | 2017-07-04 |
发明(设计)人: | 安倩;李永红;张政勇 | 申请(专利权)人: | 北京搜狐新媒体信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/08 |
代理公司: | 北京集佳知识产权代理有限公司11227 | 代理人: | 王宝筠 |
地址: | 100084 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 信息 所属 地域 识别 方法 装置 | ||
技术领域
本发明涉及通信技术领域,更具体的涉及网络信息所属地域识别方法及装置。
背景技术
随着因特网在全球范围内的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,网络成为信息主要载体之一,网络的传播特性使得海量的网络信息涌向用户。
但用户还是更关注发生在身边的事情,因此如何能够准确的识别网络信息中的地域信息,显得尤为重要。
发明内容
有鉴于此,本发明提供了一种网络信息所属地域识别方法及装置,以克服现有技术中没有识别网络信息所属地域的问题。
为实现上述目的,本发明提供如下技术方案:
一种网络信息所属地域识别方法,包括:
获取网络信息中包括的地域集合,所述地域集合包括至少一个地域;
依据所述地域集合中每一地域在所述网络信息中出现的次数以及位置,确定每一地域相应的权重,权重用于表征所述网络信息所属地域为相应地域的概率;
依据每一地域相应的权重,从所述地域名称集中,确定所述网络信息所属地域。
其中,所述获取网络信息中包括的地域名称集包括:
将所述网络信息进行划分,获得多个词;
从所述多个词中,获得与预先存储的各地域相匹配的目标词;
由所述目标词组成所述地域集合。
其中,所述依据所述地域集合中每一地域在所述网络信息中出现的次数以及位置,确定每一地域相应的权重包括:
判断所述地域集合中每一地域在所述网络信息中出现的位置;
当所述地域集合中第一地域在所述网络信息中的标题位置时,依据第一函数计算所述第一地域的权重,所述第一函数以相应地域在所述标题中的位置为因变量,以权重为自变量的函数,且所述第一函数的自变量和因变量为负相关;
当所述地域集合中第二地域在所述网络信息的正文中位置时,依据第二函数计算所述第二地域的权重,所述第二函数以相应地域在所述正文中的位置为因变量,以权重为自变量的函数,且所述第二函数的自变量和因变量为负相关。
其中,所述依据所述地域集合中每一地域在所述网络信息中出现的次数以及位置,确定每一地域相应的权重,还包括:
当所述地域集合中第三地域在所述网络信息中出现的次数大于等于两次时,将所述第三地域对应的各权重相加;
将所述第三地域对应的各权重相加之和,确定为所述第三地域的权重。
其中,所述依据每一地域相应的权重,从所述地域名称集中,确定所述网络信息所属地域包括:
依据预先存储的用于表征各地域所属关系的上下级关系,判断所述地域集合中各地域之间是否具有上下级关系;
当所述地域集合中至少两个地域之间具有上下级关系时,将所述至少两个地域确定为一细粒度地域;
将所述至少两个地域相应的权重进行预设计算,获得所述细粒度地域相应的权重;
依据所述地域集合中每一细粒度地域相应的权重,以及所述地域集合中与各地域都不具有上下级关系的粗粒度地域相应的权重,从所述地域集合包含的细粒度地域和粗粒度地域中,确定所述网络信息所属地域。
其中,所述从所述地域集合包含的细粒度地域和粗粒度地域中,确定所述网络信息所属地域包括:
判断所述地域集合包含的细粒度地域和粗粒度地域相应的权重与第一预设阈值的大小关系;
当大于等于所述第一预设阈值的权重的个数为零个时,确定所述网络信息无所属地域;
当大于等于所述第一预设阈值的权重的个数为至少一个时,将最大权重对应的目标地域,确定为所述网络信息所属地域属性,所述目标地域为细粒度地域或粗粒度地域。
其中,所述当大于等于所述第一预设阈值的权重的个数为至少一个时,将最大权重对应的目标地域,确定为所述网络信息所属地域属性包括:
当大于等于所述第一预设阈值的权重的个数为一个时,将大于等于所述第一预设阈值的权重相应的目标地域,确定为所述网络信息所属地域属性;
当大于等于所述预设阈值的权重的个数为至少两个时,计算大于等于所述预设阈值的权重相应的至少两个目标地域中,每两个目标地域相应权重的差值;
当至少一个差值大于等于第二预设阈值时,将最大权重对应的目标地域,确定为所述网络信息所属地域属性;
当所有差值均小于所述第二预设阈值时,确定所述网络信息无所属地域。
一种网络信息所属地域识别装置,包括:
获取模块,用于获取网络信息中包括的地域集合,所述地域集合包括至少一个地域;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狐新媒体信息技术有限公司,未经北京搜狐新媒体信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710141330.6/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置