[发明专利]文本主题的生成方法、装置、设备及存储介质有效
申请号: | 202210033712.8 | 申请日: | 2022-01-12 |
公开(公告)号: | CN114492429B | 公开(公告)日: | 2023-07-18 |
发明(设计)人: | 陈浩 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F18/22;G06F18/23213 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;陈秋波 |
地址: | 518000 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 主题 生成 方法 装置 设备 存储 介质 | ||
1.一种文本主题的生成方法,其特征在于,所述方法包括:
获取多个目标文本;
对各个所述目标文本分别进行分词及词语去重处理,得到词表;
对每个所述目标文本进行编码,得到文本编码向量;
对所述词表中的每个词语进行编码,得到词语编码向量;
对各个所述文本编码向量进行聚类,得到多个编码向量聚类集;
对每个所述编码向量聚类集进行平均值计算,得到聚类集主题向量;
计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度,得到目标相似度;
根据所述词表和各个所述目标相似度,对每个所述编码向量聚类集进行目标文本主题生成;
所述获取多个目标文本的步骤,包括:
获取多个新闻文本;
对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理,得到所述目标文本;
所述对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理,得到所述目标文本的步骤,包括:
对每个所述新闻文本分别进行空白符删除处理、重复标点删除处理和特殊符号删除处理,得到待处理文本;
从各个所述待处理文本中找出字数大于预设字数的每个所述待处理文本作为所述目标文本;
所述对各个所述文本编码向量进行聚类,得到多个编码向量聚类集的步骤,包括:
设置数量与预设的聚类数量相同的聚类中心,并对每个所述聚类中心进行初始化;
计算每个所述文本编码向量与每个所述聚类中心之间的距离,得到待分析距离;
根据各个所述待分析距离,将各个所述文本编码向量按照最小距离原则分配到最邻近的所述聚类中心对应的待判断聚类集;
对每个所述待判断聚类集进行向量平均值计算;
将目标向量平均值作为与所述目标向量平均值对应的所述待判断聚类集的所述聚类中心,其中,所述目标向量平均值是任一个所述向量平均值;
重复执行所述计算每个所述文本编码向量与每个所述聚类中心之间的距离,得到待分析距离的步骤,直至每个所述待判断聚类集对应的所述聚类中心均不再变化;
将每个所述待判断聚类集作为一个所述编码向量聚类集。
2.根据权利要求1所述的文本主题的生成方法,其特征在于,所述计算每个所述文本编码向量与每个所述聚类中心之间的距离,得到待分析距离的步骤,包括:
采用余弦相似度算法,计算每个所述文本编码向量与每个所述聚类中心之间的余弦相似度,得到所述待分析距离。
3.根据权利要求1所述的文本主题的生成方法,其特征在于,所述计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度,得到目标相似度的步骤,包括:
采用余弦相似度算法,计算每个所述词语编码向量与每个所述聚类集主题向量之间的余弦相似度,得到所述目标相似度。
4.根据权利要求1所述的文本主题的生成方法,其特征在于,所述根据所述词表和各个所述目标相似度,对每个所述编码向量聚类集进行目标文本主题生成的步骤,包括:
将任一个所述编码向量聚类集作为目标编码向量聚类集;
对所述目标编码向量聚类集对应的各个所述目标相似度进行正序排序,得到相似度集;
采用从开头开始获取的方法,从所述相似度集中找出预设数量的所述目标相似度,得到命中相似度集;
将所述词表中的与所述命中相似度集对应的各个词语,作为所述目标编码向量聚类集对应的所述目标文本主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210033712.8/1.html,转载请声明来源钻瓜专利网。