[发明专利]一种文本主题词确定方法、装置、存储介质及终端有效
申请号: | 202010010680.0 | 申请日: | 2020-01-06 |
公开(公告)号: | CN111274798B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 马文康;王鹏;王永会 | 申请(专利权)人: | 北京大米科技有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/284;G06F40/289 |
代理公司: | 北京恒博知识产权代理有限公司 11528 | 代理人: | 李宁宁 |
地址: | 100007 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 主题词 确定 方法 装置 存储 介质 终端 | ||
本申请实施例公开了一种文本主题词确定方法、装置、存储介质及终端,包括:对至少一个输入文本进行预处理,得到至少一个目标文本;根据预先训练得到的词语集合,构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系;基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系,确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系;根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型,进而基于所述第二映射关系,确定所述至少一个目标文本对应的至少一个主题词。运用本申请实施例能够准确挖掘短文本的主题词。
技术领域
本申请涉及计算机技术领域,尤其涉及一种文本主题词确定方法、装置、存储介质及终端。
背景技术
主题是文章/作品的中心思想,它体现的是文章/作品内容的主体及核心;而主题词则能通过少量的词语简明扼要地概括出文章/作品的主要内容。
主题模型是统计文本主题挖掘的常用方法,能够在无人工参与的前提下发现和归纳文本的主题内容。
传统的主题挖掘算法通常是利用长文本对主题模型进行无监督的训练,该方法训练出来的主题模型不适用于短文本,从而使得对短文本进行主题挖掘时,挖掘的主题词准确性不够。
发明内容
本申请实施例提供了一种文本主题词确定方法、装置、存储介质及终端,适用于短文本且能够准确地挖掘主题词。所述技术方案如下:
第一方面,本申请实施例提供了一种文本主题词确定方法,所述方法包括:
对至少一个输入文本进行预处理,得到至少一个目标文本;
根据预先训练得到的词语集合,构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系;
基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系,确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系;
根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型,进而基于所述第二映射关系,确定所述至少一个目标文本对应的至少一个主题词。
第二方面,本申请实施例提供了一种文本主题词确定装置,所述装置包括:
目标文本获取模块,用于对至少一个输入文本进行预处理,得到至少一个目标文本;
第一映射关系构建模块,用于根据预先训练得到的词语集合,构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系;
第三映射关系确定模块,用于基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系,确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系;
主题词确定模块,用于根据所述第三映射关系确定所述至少一个目标文本对应的至少一个主题类型,进而基于所述第二映射关系,确定所述至少一个目标文本对应的至少一个主题词。
第三方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项方法的步骤。
第四方面,本申请实施例提供了一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项方法的步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010010680.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:金属支撑型氧化物燃料电池半电池的制备方法
- 下一篇:一种区块链网络搭建方法