[发明专利]文本主题的生成方法、装置、设备及存储介质有效

申请号：	202210033712.8	申请日：	2022-01-12
公开（公告）号：	CN114492429B	公开（公告）日：	2023-07-18
发明（设计）人：	陈浩	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G06F40/289	分类号：	G06F40/289;G06F18/22;G06F18/23213
代理公司：	深圳市明日今典知识产权代理事务所(普通合伙) 44343	代理人：	王杰辉;陈秋波
地址：	518000 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本主题生成方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请涉及人工智能技术领域，揭示了一种文本主题的生成方法、装置、设备及存储介质，其中方法包括：对各个目标文本分别进行分词及词语去重处理得到词表；对每个目标文本进行编码得到文本编码向量；对词表中的每个词语进行编码得到词语编码向量；对各个文本编码向量进行聚类得到多个编码向量聚类集；对每个编码向量聚类集进行平均值计算得到聚类集主题向量；计算每个词语编码向量与每个聚类集主题向量之间的相似度得到目标相似度；根据词表和各个目标相似度对每个编码向量聚类集进行目标文本主题生成。捕获到了文本的语义信息，保留了词语之间的顺序信息，提高了文本主题的准确性，不需要在建模前设置自定义停用词列表、繁体转简体等复杂操作。

技术领域

本申请涉及到人工智能技术领域，特别是涉及到一种文本主题的生成方法、装置、设备及存储介质。

背景技术

在自然语言处理(NatureLanguageProcess，NLP)领域中，搜索、总结大量文本一直以来是普遍存在问题。当人工无法合理地阅读和排序海量文本时，经常使用主题建模。给定一个由许多文本组成的语料库，主题模型将发现文本中存在的潜在语义结构和主题，然后可以使用主题查找大型文本集合的高级摘要，搜索感兴趣的文档，并将相似的文档分组等。

当前，使用最广泛的主题方法是LDA(Latent Dirichlet Allocation)模型和PLSA(Probabilistic Latent Semantic Analysis)模型，尽管它们在NLP领域很受欢迎，使用也最为广泛，但是为了达到最佳结果，它们通常在建模前设置主题数量、自定义停用词列表、繁体转简体等操作，此外这些方法忽略了词语的顺序和语义，导致确定的主题的准确性不高。

发明内容

本申请的主要目的为提供一种文本主题的生成方法、装置、设备及存储介质，旨在解决现有技术的LDA模型和PLSA模型，通常在建模前设置自定义停用词列表、繁体转简体等复杂操作，忽略了词语的顺序和语义，导致确定的主题的准确性不高的技术问题。

为了实现上述发明目的，本申请提出一种文本主题的生成方法，所述方法包括：

获取多个目标文本；

对各个所述目标文本分别进行分词及词语去重处理，得到词表；

对每个所述目标文本进行编码，得到文本编码向量；

对所述词表中的每个词语进行编码，得到词语编码向量；

对各个所述文本编码向量进行聚类，得到多个编码向量聚类集；

对每个所述编码向量聚类集进行平均值计算，得到聚类集主题向量；

计算每个所述词语编码向量与每个所述聚类集主题向量之间的相似度，得到目标相似度；

根据所述词表和各个所述目标相似度，对每个所述编码向量聚类集进行目标文本主题生成。

进一步的，所述获取多个目标文本的步骤，包括：