[发明专利]关键词提取方法、装置、设备及计算机可读存储介质在审

申请号：	202310480836.5	申请日：	2023-04-28
公开（公告）号：	CN116644159A	公开（公告）日：	2023-08-25
发明（设计）人：	彭子娇;陈东鹏;张伟彬;李亚桐	申请（专利权）人：	深圳市声扬科技有限公司
主分类号：	G06F16/332	分类号：	G06F16/332;G06F16/33;G06F40/289
代理公司：	深圳市智圈知识产权代理事务所(普通合伙) 44351	代理人：	李璇
地址：	518000 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	关键词提取方法装置设备计算机可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种文本信息处理方法、装置、设备及计算机可读存储介质；具体的，通过提取目标文本的初始文本词汇，再获取与目标文本相似的目标历史文本关联的历史关键词集合，并从历史关键词集合中确定与初始文本词汇匹配的候选关键词；将包含初始文本词汇的数量最多的候选关键词确定为目标文本对应的目标关键词。由此可得，本方案可先提取出目标文本的初始文本词汇并查询出与目标历史文本，从与目标历史文本关联的历史关键词集合中选取出与初始文本词汇匹配的候选关键词，从而根据候选关键词确定出目标文本的目标关键词；以此，提高了文本关键词提取的准确性，使得用户可以更加方便地获取到目标文本的关键语义，提升了用户的体验感。

技术领域

本申请涉及计算机技术领域，具体涉及一种关键词提取方法、装置、设备及计算机可读存储介质。

背景技术

随着互联网技术的不断发展，关键词检测功能也越来越普遍于软件产品中，传统的关键词检测功能主要是基于配置人员进行手动配置，当文本数量过多时，配置人员的工作量会过大，且提取的关键词容易出现重复提取的问题。相关技术可以通过关键词提取算法对文本中的词汇进行划分，从而达到关键词提取的目的。

然而，相关技术虽然可以从文本中提取对应的关键词，但是，当话术内容中的文字被划分得过于分散时，提取出来的关键词也会变得过于分散，导致关键词并不能很好地体现出文本的语义，从而降低了关键词提取的准确性，降低了用户的使用体验。

发明内容

本申请实施例提供一种文本信息处理方法、装置、设备及计算机可读存储介质，可准确地提取出目标文本的关键词，提升用户的体验感。

本申请实施例提供一种文本信息处理方法，包括：

获取目标文本，并对所述目标文本进行分词处理，得到至少一个初始文本词汇；

从历史文本集合中查询与所述目标文本相似的目标历史文本；

获取所述目标历史文本关联的历史关键词集合，并从所述历史关键词集合中确定与所述初始文本词汇匹配的候选关键词；

将包含所述初始文本词汇的数量最多的候选关键词确定为所述目标文本对应的目标关键词。