[发明专利]基于拓扑关系图的实体网页链接的获取技术在审
| 申请号: | 201810516375.1 | 申请日: | 2018-05-25 |
| 公开(公告)号: | CN110598073A | 公开(公告)日: | 2019-12-20 |
| 发明(设计)人: | 苏柏;马超;周长海;华抒军;陆掾;文宁 | 申请(专利权)人: | 微软技术许可有限责任公司 |
| 主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/955;G06F16/958 |
| 代理公司: | 11353 北京市惠诚律师事务所 | 代理人: | 逯博 |
| 地址: | 美国华*** | 国省代码: | 美国;US |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 网页 拓扑关系图 候选实体 准确度 关联关系 网页链接 链接 权重 主语 挖掘 概率 | ||
1.一种方法,包括:
根据宾语值检索与该宾语值相关的多个候选实体网页;
构建主语实体网页与多个所述候选实体网页之间的拓扑关系图,并根据所述拓扑关系图中所述候选实体网页与主语实体网页之间的路径关系,计算各个候选实体网页的权重值;
根据各个候选实体网页的权重值进行排名,并根据排名结果确定宾语值对应的值链接。
2.根据权利要求1所述方法,所述构建主语实体网页与多个所述候选实体网页之间的拓扑关系图包括:
构建从所述主语实体网页到多个所述候选实体网页的正向拓扑关系图,和/或,构建从各个所述候选实体网页到所述主语实体网页的多个反向拓扑关系图。
3.根据权利要求2所述的方法,所述计算各个候选实体网页的权重值包括:采用随机游走的方式,计算所述候选实体网页的权重值。
4.根据权利要求1所述的方法,其中,所述拓扑关系图包括正向拓扑关系图,所述正向拓扑关系图包括第一头节点、第一中间节点以及第一汇聚节点,
所述构建主语实体网页与多个所述候选实体网页之间的拓扑关系图包括:
将所述主语实体网页作为第一头节点;
从该主语实体网页开始,抓取该主语实体网页指向的多个中间实体网页和/或所述候选实体网页,然后再从抓取到的各个中间实体网页继续抓取一个或多个新的中间实体网页和/或所述候选实体网页;
如此循环,直至到达预设的第一抓取轮次和/或形成了预设的第一数量的从所述主语实体网页到所述候选实体网页的路径,其中,将所述中间实体网页作为第一中间节点,将所述候选实体网页作为所述第一汇聚节点。
5.根据权利要求4所述的方法,其中,所述计算各个候选实体网页的权重值包括:给所述第一头节点分配初始的第一权重值,并采用随机游走的方式,按照节点的出度进行权重值分配,直至达到预设的第一游走轮次和/或所述汇聚节点被分配到权重值,获取随机游走结束时的各个第一汇聚节点的权重值,作为各个候选实体网页的权重值。
6.根据权利要求4所述的方法,其中,所述拓扑关系图还包括多个反向拓扑关系图,所述反向拓扑关系图包括第二头节点、第二中间节点以及第二汇聚节点,
所述构建主语实体网页与多个所述候选实体网页之间的拓扑关系图还包括:采用如下方式分别构建各个所述候选实体网页到所述主语实体网页的多个反向拓扑关系图:
以候选实体网页作为第二头节点;
从该第二头节点开始,抓全该候选实体网页指向的多个中间实体网页或者所述主语实体网页,然后再从抓取到的各个中间实体网页继续抓取一个或多个新的中间实体网页和/或所述主语实体网页;
如此循环,直至到达预设的第二抓全轮次和/或形成了预设的第二数量的从所述候选实体网页到所述候选实体网页的路径,其中,将所述中间实体网页作为第二中间节点,将所述主语实体网页作为所述第二汇聚节点。
7.根据权利要求6所述的方法,其中,所述计算各个候选实体网页的权重值包括:
基于正向拓扑关系图,给所述第一头节点分配初始的第一权重值,并采用随机游走的方式,按照节点的出度进行权重值分配,直至达到预设的第一游走轮次和/或所述汇聚节点被分配到权重值,将基于所述正向拓扑关系图的随机游走结束时的各个第一汇聚节点的权重值作为对应候选实体网页的第一中间权重值;
基于各个所述反向拓扑关系图,给所述第二头节点分配初始的第二权重值,并采用随机游走的方式,按照节点的出度进行权重值分配,直至达到预设的第二游走轮次和/或所述第二汇聚节点被分配到权重值,将基于所述反向拓扑关系图的随机游走结束时的各个反向拓扑关系图中的第二汇聚节点的权重值,作为各个反向拓扑关系图中的候选实体网页的第二中间权重值;
将各个所述候选实体网页的第一中间权重值和第二中间权重值进行相加而获得的权重值,作为各个所述候选实体网页的权重值。
8.根据权利要求1所述的方法,其中,所述根据宾语值检索与该宾语值相关的多个候选实体网页包括:
将所述宾语值与网页中的锚文本进行匹配检索,以获取与该宾语值相关的多个候选实体网页。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810516375.1/1.html,转载请声明来源钻瓜专利网。





