[发明专利]一种文本主题词确定方法、装置、存储介质及终端有效
申请号: | 202010010680.0 | 申请日: | 2020-01-06 |
公开(公告)号: | CN111274798B | 公开(公告)日: | 2023-08-18 |
发明(设计)人: | 马文康;王鹏;王永会 | 申请(专利权)人: | 北京大米科技有限公司 |
主分类号: | G06F40/258 | 分类号: | G06F40/258;G06F40/284;G06F40/289 |
代理公司: | 北京恒博知识产权代理有限公司 11528 | 代理人: | 李宁宁 |
地址: | 100007 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 主题词 确定 方法 装置 存储 介质 终端 | ||
1.一种文本主题词确定方法,其特征在于,所述方法包括:
对至少一个输入文本进行预处理,得到至少一个目标文本;
根据预先训练得到的词语集合,构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系;
基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系,确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系;
其中,所述第一映射关系包括目标文本-词语频率矩阵,第二映射关系包括主题类型-词语频率矩阵,所述第三映射关系为目标文本-主题类型矩阵;
将所述目标文本-主题类型矩阵中最大概率值对应的索引作为所述目标文本的主题类型索引,基于所述主题类型索引以及所述主题类型-词语频率矩阵,确定所述至少一个主题词;
所述主题类型-词语频率矩阵训练过程,包括:
对至少一条第一样本文本进行文本合并处理,生成至少一条第二样本文本,所述第一样本文本的文本长度均小于预设阈值,所述第二样本文本的文本长度均大于等于所述预设阈值;
基于所述至少一条第二样本文本的主题类型、主题词,获取主题先验信息;
基于所述至少一条第二样本文本以及所述主题先验信息,对文本主题挖掘模型进行训练,获取主题类型-词语频率矩阵;
所述主题类型-词语频率矩阵训练过程,还包括:
根据所述至少一条第一样本文本中的词汇生成词语集合;
基于所述至少一条第一样本文本中词语出现的频率统计结果,构建目标文本-词语频率矩阵;
采用所述至少一条第二样本文本以及所述主题先验信息,对文本主题词挖掘模型进行训练,当训练过程中生成的样本文本-词语频率矩阵与所述目标文本-词语频率矩阵一致时,模型训练完成;
获取训练过程中生成的样本主题类型-词语频率矩阵。
2.根据权利要求1所述的方法,其特征在于,所述主题先验信息包括:所述至少一条第二样本文本隶属于不同主题类型的概率分布。
3.一种文本主题词确定装置,其特征在于,所述装置包括:
目标文本获取模块,用于对至少一个输入文本进行预处理,得到至少一个目标文本;
第一映射关系构建模块,用于根据预先训练得到的词语集合,构建所述至少一个目标文本与所述词语集合中至少一个词语之间的第一映射关系;
第三映射关系确定模块,用于基于预先训练得到的主题类型与所述词语集合中至少一个词语之间的第二映射关系,确定所述至少一个目标文本与至少一个主题类型之间的第三映射关系;
主题词确定模块,用于将所述目标文本-主题类型矩阵中最大概率值对应的索引作为所述目标文本的主题类型索引,基于所述主题类型索引以及所述主题类型-词语频率矩阵,确定所述至少一个主题词;
其中,所述第一映射关系包括目标文本-词语频率矩阵,第二映射关系包括主题类型-词语频率矩阵,所述第三映射关系为目标文本-主题类型矩阵;
所述文本主题词确定装置还包括:
第二样本文本生成模块,用于对至少一条第一样本文本进行文本合并处理,生成至少一条第二样本文本,所述第一样本文本的文本长度均小于预设阈值,所述第二样本文本的文本长度均大于等于所述预设阈值;
主题先验信息获取模块,用于基于所述至少一条第二样本文本的主题类型、主题词,获取主题先验信息;
主题类型-词语频率矩阵获取模块,用于基于所述至少一条第二样本文本以及所述主题先验信息,对文本主题挖掘模型进行训练,获取主题类型-词语频率矩阵;
所述文本主题词确定装置还包括:
词语集合生成模块,用于根据所述至少一条第一样本文本中的词汇生成词语集合;
目标文本-词语频率矩阵构建模块,用于基于所述至少一条第一样本文本中词语出现的频率统计结果,构建目标文本-词语频率矩阵;
所述主题类型-词语频率矩阵获取模块具体用于:
采用所述至少一条第二样本文本以及所述主题先验信息,对文本主题词挖掘模型进行训练,当训练过程中生成的样本文本-词语频率矩阵与所述目标文本-词语频率矩阵一致时,模型训练完成;获取训练过程中生成的样本主题类型-词语频率矩阵。
4.一种计算机存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1或2的方法步骤。
5.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1或2的方法步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大米科技有限公司,未经北京大米科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010010680.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:金属支撑型氧化物燃料电池半电池的制备方法
- 下一篇:一种区块链网络搭建方法