[发明专利]新词发现方法和装置在审

专利信息
申请号: 201810704548.2 申请日: 2018-06-29
公开(公告)号: CN110728134A 公开(公告)日: 2020-01-24
发明(设计)人: 谢群群;邵荣防;郝晖;李萧萧;张小卫 申请(专利权)人: 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司
主分类号: G06F40/216 分类号: G06F40/216
代理公司: 11021 中科专利商标代理有限责任公司 代理人: 吕雁葭
地址: 100195 北京市海淀区杏石口路6*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 搜索词 搜索数据 专家用户 搜索 所属领域 新词发现 预设条件 候选词
【说明书】:

本公开提供了一种新词发现方法,包括:获取至少一个领域内的专家用户的搜索数据,所述搜索数据中包括m个搜索词(m≥1),其中,所述专家用户为在至少一个领域内的行为和/或级别满足预设条件的用户;根据所述m个搜索词中的每个搜索词在所属领域的搜索用户数和/或搜索次数,选取其中部分搜索词作为新词候选词。

技术领域

本公开涉及计算机技术领域,更具体地,涉及一种新词发现方法和装置。

背景技术

随着技术的进步和数据量的增长,新词不断涌现,新词识别研究现已成为自然语言处理中的非常重要的问题,新词发现方法可以应用于各个领域,其中,对于需要处理大量数据的电商领域尤为重要,但是现有的新词发现计算方案主要根据人工标记方法得出,基于词典数据,依赖人工标记,数据量少,难以适合电商应用场景,特别在时效性要求较高的电商应用场景下存在众多不足。

发明内容

有鉴于此,本公开提供了一种新词发现方法,包括:获取至少一个领域内的专家用户的搜索数据,所述搜索数据中包括m个搜索词(m≥1),其中,所述专家用户为在至少一个领域内的行为和/或级别满足预设条件的用户;根据所述m个搜索词中的每个搜索词在所属领域的搜索用户数和/或搜索次数,选取其中部分搜索词作为新词候选词。

根据本公开的实施例,所述至少一个领域内的专家用户包括第一领域的专家用户,所述第一领域的专家用户包括:在所述第一领域的会员级别高于预设的级别阈值的用户;和/或在所述第一领域的购买商品数量高于预设的数量阈值;和/或在所述第一领域的购买商品次数高于预设的次数阈值的用户。

根据本公开的实施例,根据所述m个搜索词中的每个搜索词在所属领域的搜索用户数,选取其中的部分搜索词作为新词候选词包括:获取一段时间内搜索词在所属领域的搜索用户数,所述搜索用户数为在该段时间内搜索过该搜索词的所属领域内的专家用户数;若搜索词的搜索用户数超过预设的搜索用户数阈值,则将所述搜索词作为新词候选词;和/或获取搜索词在所属领域内的全部专家用户数,以及一段时间内搜索词在所属领域的搜索用户数;若所述搜索用户数与所属领域内的全部专家用户数的比值超过预设的比值阈值,则将所述搜索词作为新词候选词。

根据本公开的实施例,新词发现方法还包括:获取预设范围内的多个用户的搜索数据排行,提取其中的n个搜索词(n≥1),其中,所述搜索数据排行包括搜索用户数排行和/或搜索次数排行,所述搜索用户数排行根据搜索用户数量对搜索词进行排名,所述搜索次数排行根据被搜索次数对搜索词进行排名;获取一段时间内n个搜索词中的每个搜索词在搜索用户数排行和/或搜索次数排行中的排名变化情况,并根据所述排名变化情况选取部分搜索词作为新词候选词。

根据本公开的实施例,所述预设范围内的多个用户包括多个专家用户和多个普通用户;或者所述预设范围内的多个用户包括多个专家用户;或者所述预设范围内的多个用户包括多个普通用户。

根据本公开的实施例,所述获取一段时间内n个搜索词中的每个搜索词在搜索用户数排行和/或搜索次数排行中的排名变化情况,并根据排名变化情况选取部分搜索词作为新词候选词包括:获取每个搜索词在所述一段时间之前和之后的排名;根据搜索词在所述一段时间前后的排名得到每个搜索词的飙升系数;将所述飙升系数超过预设的系数阈值的搜索词作为新词候选词。

根据本公开的实施例,所述飙升系数为:

其中,Ri为搜索词在所述一段时间之前的排名,Rj为搜索词在所述一段时间之后的排名。

根据本公开的实施例,新词发现方法还包括:获取多个商品名称,并在所述多个商品名称中提取新词候选词。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810704548.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top