[发明专利]一种面向搜索引擎的数据处理方法及装置有效
申请号: | 201310236603.7 | 申请日: | 2013-06-14 |
公开(公告)号: | CN104239321B | 公开(公告)日: | 2018-11-09 |
发明(设计)人: | 刘广权 | 申请(专利权)人: | 高德软件有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 102200 北京市昌*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向搜索引擎的数据处理方法及装置,所述方法包括:获取搜索词;对所述搜索词进行分词,得到所述搜索词的词素集合;对所述词素集合中的词素进行组合,得到候选新词;在预置的标准语料库中对所述候选新词进行全包含搜索,若搜索到所述候选新词,则判定所述候选新词为未登录词。同时,本发明还公开了一种实现上述方法的装置。本发明公开的方法及装置通过对用户行为的分析,完成未登陆词发现,降低了现有的未登录词的发现方法对于既有词法的依赖以及特定应用场合的束缚,提高了未登录词发现结果的准确性。 | ||
搜索关键词: | 一种 面向 搜索引擎 数据处理 方法 装置 | ||
【主权项】:
1.一种面向搜索引擎的数据处理方法,其特征在于,包括:获取搜索词;对所述搜索词进行分词,得到所述搜索词的词素集合;对所述词素集合中的词素进行组合,得到候选新词;在预置的标准语料库中对所述候选新词进行全包含搜索,若搜索到所述候选新词,则判定所述候选新词为未登录词,其中所述预置的标准语料库存储的是相关行业的标准信息;所述对所述词素集合的词素进行组合,得到候选新词具体包括:判断所述词素集合中是否包括单字词素,如果包括,则当所述词素集合中的分词均为单字词素时,将所述词素集合对应的搜索词作为候选新词;当所述词素集合中有连续的单字词素和非单字词素时,将所述连续的单字词素进行组合,得到第一组合词素,并将所述连续的单字词素及其相邻的非单字词素进行组合,得到第二组合词素;在预置的搜索词搜索频率记录中,获取所述第一组合词素及第二组合词素的搜索频率,选择搜索频率高的一个组合词素作为候选新词;当所述词素集合中有单个的单字词素与非单字词素相邻时,将所述单字词素与其相邻的非单字词素进行组合,得到第三组合词素;在预置的搜索词搜索频率记录中,获取所述非单字词素与所述第三组合词素的搜索频率,并选择搜索频率高的一个组合词素作为候选新词。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于高德软件有限公司,未经高德软件有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310236603.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种按摩人体的马桶盖子
- 下一篇:传送带便池