[发明专利]一种数据处理方法和相关装置有效
申请号: | 201611110268.6 | 申请日: | 2016-12-02 |
公开(公告)号: | CN108153792B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 彭正超;安伟亭;魏虎;李鹏飞;张建锋 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/9538 | 分类号: | G06F16/9538;G06F40/289;G06F40/30;G06F16/9535;G06Q30/0601 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 李辉 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 相关 装置 | ||
本发明实施例公开了一种数据处理方法和相关装置,为了提高搜索体验,可以将目标语义单元进行分词,针对一个分词得到的搜索结果,若根据分词搜索得到的搜索结果中资源的所属类目较少,且与根据目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度较高,可以作为该目标语义单元的核心词。使用核心词搜索得到的搜索结果中资源所具有的特点与希望通过目标语义单元搜索到的资源的特点在一定程度上是相符的,故通过将核心词对应的搜索结果作为该目标语义单元对应的搜索结果可以有效的起到数量扩充的作用,且所扩充的资源更可能与以该目标语义单元进行搜索的搜索目的具有相关性,提高了用户的搜索体验。
技术领域
本发明涉及数据处理领域,特别是涉及一种数据处理方法和相关装置。
背景技术
随着互联网技术的发展,利用互联网平台向用户提供资源的方式已经广泛应用。
用户若希望查看、获取某一种类的资源,可以在互联网平台上通过输入体现该资源特点的搜索词进行搜索,以希望从搜索结果中获取具有体现搜索词特点的资源。
发明内容
然而,有些时候当用户输入的搜索词数量较多或者搜索词不准确时,获取的搜索结果可能很少甚至没有,从而降低了用户的体验。可见,如何提高搜索体验是目前亟需解决的技术问题。
为了解决上述技术问题,本发明提供了一种数据处理方法和相关装置,可以有效的对该目标语义单元对应的搜索结果进行扩充的作用,从而提高了用户的搜索体验。
本发明实施例公开了如下技术方案:
第一方面,本发明提供了一种数据处理方法,所述方法包括:
获取目标语义单元,所述目标语义单元为一个用于搜索的搜索语义单元;
将所述目标语义单元划分得到多个分词;
根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词;
将根据从所述多个分词中确定出的核心词搜索得到的搜索结果作为根据所述目标语义单元搜索得到的搜索结果。
可选的,在所述将所述目标语义单元划分得到多个分词之前,还包括:
若所述目标语义单元的搜索结果中资源数量少于第一阈值,或者所述目标语义单元的字符长度多于第二阈值,执行所述将所述目标语义单元划分得到多个分词的步骤。
可选的,第一分词为所述多个分词中任意一个分词,所述根据分词搜索得到的搜索结果中资源所属类目的数量,以及根据分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度确定出所述目标语义单元的核心词,包括:
获取所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量,以及所述第一分词在历史搜索行为中与其他词共同出现的次数;
根据所述第一分词在历史搜索行为中用于搜索的次数、所述第一分词搜索得到的资源数量、所述第一分词在历史搜索行为中与其他词共同出现的次数、根据所述第一分词搜索得到的搜索结果中资源所属类目的数量,以及根据所述第一分词搜索得到的搜索结果中资源的所属类目与根据所述目标语义单元搜索得到的搜索结果中资源的所属类目之间重合度计算所述第一分词的核心词得分;
若所述第一分词的核心词得分处于所述多个分词中各分词的核心词得分最高的前N位,将所述第一分词确定为所述目标语义单元的核心词。
可选的,在所述将从所述多个分词中确定出的核心词所对应的搜索结果作为所述目标语义单元的搜索结果之后,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611110268.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种资源推荐方法和相关装置
- 下一篇:一种原始数据处理方法