[发明专利]关键词的提取方法、装置、电子设备及可读存储介质有效
| 申请号: | 202110977679.X | 申请日: | 2021-08-24 |
| 公开(公告)号: | CN113743112B | 公开(公告)日: | 2023-09-12 |
| 发明(设计)人: | 张鑫睿;刘欢;王海威;陈坤斌;和为 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/216 |
| 代理公司: | 北京市通商律师事务所 11951 | 代理人: | 巩靖 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 关键词 提取 方法 装置 电子设备 可读 存储 介质 | ||
本公开提供了关键词的提取方法、装置、电子设备及可读存储介质,涉及数据处理技术领域,尤其涉及NLP领域。具体实现方案为:确定目标文本的第一分词在目标文本所包含的各个句子中的第一词频;对第一词频进行平滑处理得到第二词频;基于第二次词频确定第一分词在目标文本中的第三词频;基于第三词频从第一分词中确定第一关键词。基于本方案,通过对第一词频进行平滑处理,能够降低数值较大的第一词频中对关键词提取的影响幅度,避免仅因词在目标文本中的局部高频出现而被作为关键词提取的情况,提升关键词的提取准确率。
技术领域
本公开涉及数据处理技术领域,尤其涉及自然语言处理(Natural LanguageProcessing,NLP)技术领域,具体而言,本公开涉及一种关键词的提取方法、装置、电子设备及可读存储介质。
背景技术
随着线上办公技术的日趋成熟,员工也越来越多的通过线上会议进行沟通协作。线上会议会产生大量的会议记录文本,用户人工查找会议记录文本中的重点内容较为不便。通过提取会议记录文本中的关键词,能够帮助用户快速地提取会议记录文本的内容。
现有技术中在进行关键词的抽取时,可能存在一些词在一个句子中被多次提及,甚至这些词仅出现在某一个句子中,而并没有广泛的分布在全部文本的情况。这些词由于其高频性,可能会被作为关键词提取出,而其实际上可能并非真正的关键词,因此会影响关键词的提取准确率。
发明内容
本公开为了解决上述缺陷中的至少一项,提供了一种关键词的提取方法、装置、电子设备及可读存储介质。
根据本公开的第一方面,提供了一种关键词的提取方法,该方法包括:
确定目标文本的第一分词在目标文本所包含的各个句子中的第一词频;
对第一词频进行平滑处理得到第二词频;
基于第二次词频确定第一分词在目标文本中的第三词频;
基于第三词频从第一分词中确定第一关键词。
根据本公开的第二方面,提供了一种关键词的提取装置,该装置包括:
第一词频确定模块,用于确定目标文本的第一分词在目标文本所包含的各个句子中的第一词频;
第二词频确定模块,用于对第一词频进行平滑处理得到第二词频;
第三词频确定模块,用于基于第二次词频确定第一分词在目标文本中的第三词频;
关键词提取模块,用于基于第三词频从第一分词中确定第一关键词。
根据本公开的第三方面,提供了一种电子设备,该电子设备包括:
至少一个处理器;以及
与上述至少一个处理器通信连接的存储器;其中,
存储器存储有可被上述至少一个处理器执行的指令,指令被上述至少一个处理器执行,以使上述至少一个处理器能够执行上述关键词的提取方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使计算机执行上述关键词的提取方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现上述关键词的提取方法。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种关键词的提取方法的流程示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110977679.X/2.html,转载请声明来源钻瓜专利网。





