[发明专利]生成关键词库的方法、装置和电子设备有效
| 申请号: | 201910619391.8 | 申请日: | 2019-07-10 |
| 公开(公告)号: | CN110427492B | 公开(公告)日: | 2023-08-15 |
| 发明(设计)人: | 李超;姚廉;黄宇寰;王维强;汲小溪 | 申请(专利权)人: | 创新先进技术有限公司 |
| 主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/30 |
| 代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新;朱文杰 |
| 地址: | 英属开曼群岛大开曼*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 生成 关键 词库 方法 装置 电子设备 | ||
本申请实施例公开了一种生成关键词库的方法、装置和电子设备,该方法包括:基于目标类别对应的目标文本语料,确定所述目标类别的M个初始关键词,M为大于或等于2的整数;确定所述M个初始关键词之间的语义相似度;基于所述M个初始关键词和所述语义相似度,生成所述目标类别的目标关键词库。
技术领域
本申请涉及互联网技术领域,更具体地涉及生成关键词的方法、装置和电子设备。
背景技术
行业关键词库(字典)在风险监控以及风险策略运行方面具有非常重要的意义。例如,在风险监控方面,在商户预警场景中,大部分无效异动是由于商户行业特性导致的交易波动,如大促、季节性交易变动等。如果基于行业关键词库判断商户所属的行业类别不准确,就容易导致无效异动的产生。
目前,生成行业关键词库的方法主要有两种。一种是通过人工进行挖掘,但这种方式耗费较高的人力成本,且生成的关键词库覆盖率较低。另一种是基于TF-IDF值等方式生成行业关键词库,但是用这种方式生成的行业关键词库中的关键词单纯以词频衡量一个词的重要性,导致准确性较低。
因此,需要一种生成关键词库的方法,来克服上述技术问题。
发明内容
本申请的目的之一在于提供一种生成关键词库的方法,以解决需要现有生成关键词库的方法耗费较高的人力成本、覆盖率低以及准确性低的问题。
为解决上述技术问题,本申请实施例是这样实现的:
第一方面,提供了一种生成关键词库的方法,包括:
基于目标类别对应的目标文本语料,确定所述目标类别的M个初始关键词,M为大于或等于2的整数;
确定所述M个初始关键词之间的语义相似度;
基于所述M个初始关键词和所述语义相似度,生成所述目标类别的目标关键词库。
第二方面,提供了一种生关键词库的装置,包括:
第一处理单元,基于目标类别对应的目标文本语料,确定所述目标类别对应的M个初始关键词,M为大于或等于2的整数;
第二处理单元,确定所述M个初始关键词之间的语义相似度;
生成单元,基于所述M个初始关键词和所述语义相似度,生成所述目标类别的目标关键词库。
第三方面,提供了一种电子设备,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使用所述处理器执行以下操作:
基于目标类别对应的目标文本语料,确定所述目标类别对应的M个初始关键词,M为大于或等于2的整数;
确定所述M个初始关键词之间的语义相似度;
基于所述M个初始关键词和所述语义相似度,生成所述目标类别的目标关键词库。
第四方面,提供了一种计算机可读介质,所述计算机可读介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得电子设备执行以下操作:
基于目标类别对应的目标文本语料,确定所述目标类别对应的M个初始关键词,M为大于或等于2的整数;
确定所述M个初始关键词之间的语义相似度;
基于所述M个初始关键词和所述语义相似度,生成所述目标类别的目标关键词库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910619391.8/2.html,转载请声明来源钻瓜专利网。





