[发明专利]从统一资源定位符(URL)的关键字提取有效
申请号: | 201210067044.7 | 申请日: | 2012-03-14 |
公开(公告)号: | CN102693272B | 公开(公告)日: | 2017-04-12 |
发明(设计)人: | S·R·维西拉祖;U·R·尤杜帕;A·N·博伊;G·达萨;W·刘;Q·肖 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海专利商标事务所有限公司31100 | 代理人: | 黄嵩泉 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 统一 资源 定位 url 关键字 提取 | ||
1.一种用于从对应于网站的统一资源定位符(URL)中提取关键字的计算机实现的过程,包括:
标识所述URL的分量(102);
基于URL分量的结构将所述URL分成多个段(104);
对所述段执行文本分段以将URL文本转换成自然语言项(106);
基于受控词汇从段项中提取第一组关键字(108);
基于所述受控词汇通过从URL中的与用于生成所述第一组关键字的段不同的段中形成项的组合来生成第二组关键字(110);
基于一组特征来对所述第一组关键字和所述第二组关键字的相关性打分(112);以及
按相关性的顺序输出经打分的关键字(114)。
2.如权利要求1所述的计算机实现的过程,其特征在于,基于所述URL的结构将URL分成多个段还包括:
将所述URL分成授权机构、路径、查询和片段分量。
3.如权利要求1所述的计算机实现的过程,其特征在于,提取所述第一组关键字包括:
(a)对照所述受控词汇来比较四个项长度的段短语,
(b)如果在所述受控词汇中找到所述短语,则指派所述短语作为关键字,
(c)如果未在所述受控词汇中找到所述短语,则将段的长度减少1项并对照所述受控词汇再次比较所述短语,
(d)重复(c)直到在所述受控词汇中找到其余的项或者仅留下短语的一个项;以及
(e)如果在所述受控词汇中找到所述短语,则输出所述短语作为关键字,如果未在所述受控词汇中找到所述短语,则忽略所述短语。
4.如权利要求1所述的计算机实现的过程,其特征在于,还包括从所述第二组关键字中删除未在所述受控词汇中找到的项的组合。
5.如权利要求1所述的计算机实现的过程,其特征在于,在提取所述第一组关键字之前将URL文本转换成自然语言文本包括:
用空格来替换URL文本中的每一个定界符来创建项;以及
拆分通常在URL中找到的项。
6.如权利要求1所述的计算机实现的过程,其特征在于,通过从URL的不同分量中形成项的组合来生成第二组关键字还包括:
生成所述第一组关键字;
通过从段对中各取一个关键字并串接来自每个段对中的关键字来从所述URL的各部分中组合段对以生成候选关键字组合;
对照受控词汇来验证所述候选关键字组合;
保留在受控词汇中找到的候选关键字组合作为关键字,并且如果未找到则丢弃所述候选关键字组合。
7.如权利要求1所述的计算机实现的过程,其特征在于,还包括通过使用外部知识源来扩展从所述URL中提取的关键字。
8.如权利要求1所述的计算机实现的过程,其特征在于,基于一组特征对所述第一组关键字和所述第二组关键字打分还包括:基于每个关键字的父段的位置、关键字的长度以及父段的长度来对每个关键字打分。
9.一种用于从统一资源定位符(URL)地址中提取关键字的计算机实现的过程,包括:
将当前网页的当前URL分成授权机构、路径、查询以及片段四个预定义的URL分量(202);
基于特定定界符和试探性观察来分开地令牌化各分量以获得段(204);
对所述段执行文本分段以将URL的文本转换成自然语言项(206);
基于受控词汇从段项中提取第一组关键字(206);
基于所述受控词汇通过从URL中的与所述第一组关键字的段不同的段中形成项的组合来生成第二组关键字(208);
基于相关性对所述第一组关键字和所述第二组关键字打分以输出经排序的一组经打分的关键字(210)。
10.如权利要求9所述的计算机实现的过程,其特征在于,基于在URL中的从中导出该关键字的段的位置、关键字的长度以及从中导出关键字的段的长度来确定关键字的相关性分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210067044.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:氨基甲酸酯化合物的制造方法
- 下一篇:多层双螺杆共挤出PET片材的生产线