[发明专利]一种类别新词的挖掘方法及装置有效
申请号: | 201110376719.1 | 申请日: | 2011-11-23 |
公开(公告)号: | CN103136212A | 公开(公告)日: | 2013-06-05 |
发明(设计)人: | 张超;王强;费晓旭 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 类别 新词 挖掘 方法 装置 | ||
1.一种类别新词的挖掘方法,其特征在于,所述方法包括:
获取与特定类别的URL模版匹配的URL及与获取的URL对应的query;
利用获取的URL及与获取的URL对应的query生成query簇;
从各query簇中挖掘新词作为所述特定类别的新词。
2.根据权利要求1所述的方法,其特征在于,所述特定类别的URL模版是通过下列方式得到的:
利用搜索日志中记录的URL生成URL模版;
对生成的URL模版进行分类,得到至少一个特定类别的URL模版。
3.根据权利要求2所述的方法,其特征在于,利用搜索日志中记录的URL生成URL模版的步骤包括:
针对搜索日志中的每个URL,将该URL中第m个分隔符后由分隔符分隔形成的各个不包含分隔符的部分轮流替换成通配符,每替换一个通配符得到一个与该URL对应的URL模版,并将通过搜索日志中的所有URL得到的不完全相同的URL模版作为候选URL模版,其中m为大于或等于1且不超过该URL中最后一个分隔符所处位置的整数;
针对每个候选URL模版,根据搜索日志中与该候选URL模版匹配的URL中被该候选URL模版的通配符所覆盖部分的属性对该候选URL模版的通配符进行限定,使得该候选URL模版的通配符表示的含义与所述属性一致,以得到最终的URL模版,其中所述属性包括纯数字、纯字母,或者,数字与字母混合。
4.根据权利要求3所述的方法,其特征在于,利用搜索日志中记录的URL生成URL模版的步骤进一步包括:
在对候选URL模版中的通配符进行限定前,将在搜索日志中所覆盖的URL数量不满足要求的候选URL模版过滤掉。
5.根据权利要求3所述的方法,其特征在于,利用搜索日志中记录的URL生成URL模版的步骤进一步包括:
对最终的URL模版中冗余或存在包含关系的URL模版进行归一化处理。
6.根据权利要求2所述的方法,其特征在于,对生成的URL模版进行分类的步骤包括:
对生成的每个URL模版,在搜索日志中确定该URL模版对应的每个query-URL对中的query所属类别,将搜索日志中记录的该query-URL对被点击的次数累计到该query-URL对中的query所属类别的点击次数中,并在该URL模版对应的所有query-URL对的点击次数均已累计到各个类别后,将点击次数最高的类别作为该URL模版所属类别,其中该URL模版对应的query-URL对是该URL模版在搜索日志中覆盖的URL及该URL对应的query所形成的对。
7.根据权利要求1所述的方法,其特征在于,利用获取的URL及与获取的URL对应的query生成query簇的步骤包括:
将与获取的同一URL对应的若干query聚为一个query簇。
8.根据权利要求1所述的方法,其特征在于,利用获取的URL及与获取的URL对应的query生成query簇的步骤包括:
将与获取的URL中主题相同的URL对应的若干query聚为一个query簇。
9.根据权利要求7或8所述的方法,其特征在于,利用获取的URL及与获取的URL对应的query生成query簇的步骤进一步包括:
从得到的query簇中过滤掉对应的URL在搜索日志中的点击总次数不满足要求的query簇。
10.根据权利要求1所述的方法,其特征在于,从各query簇中挖掘新词作为所述特定类别的新词的步骤包括:
从每个query簇中确定与该query簇相关的候选新词;
确定每个候选新词属于所述特定类别的置信度;
从不包括在预设词库中的候选新词里选取所述置信度满足要求的候选新词作为所述特定类别的新词。
11.根据权利要求10所述的方法,其特征在于,从一个query簇S中确定与所述S相关的候选新词的步骤包括:
将所述S中的每个query切分为片段;
从所述S包含的所有切分片段中选取满足预设条件的切分片段作为与所述S相关的候选新词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110376719.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于WIFI的电子白板信号接收器
- 下一篇:一种具有收纳功能的鼠标