[发明专利]主题分类模型训练、主题分类、文本处理方法和装置在审
申请号: | 202211546281.1 | 申请日: | 2022-12-05 |
公开(公告)号: | CN115730075A | 公开(公告)日: | 2023-03-03 |
发明(设计)人: | 曹扬;杨迪丹;李丁丁;王维维;陈艺曦 | 申请(专利权)人: | 中电科大数据研究院有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/284 |
代理公司: | 北京智桥联合知识产权代理事务所(普通合伙) 11560 | 代理人: | 金光恩 |
地址: | 550081 贵州省贵阳市贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题 分类 模型 训练 文本 处理 方法 装置 | ||
1.一种主题分类模型训练方法,所述方法包括:
获取待处理文本的初始词集合;
对所述初始词集合进行关键词提取,得到至少一个关键词单元,每个关键词单元包括:至少一个关键词;
基于所述至少一个关键词单元以及预设的主题分类标签矩阵,计算得到所述初始词集合的主题标签;
基于所述初始词集合以及所述主题标签,训练得到主题分类模型。
2.根据权利要求1所述的方法,其中,每个关键词单元还包括:各个关键词属于所述初始词集合的主题的概率,所述基于所述至少一个关键词单元以及预设的主题分类标签矩阵,计算得到所述初始词集合的主题标签,包括:
针对各个关键词单元,计算该关键词单元中的关键词与预设的主题分类标签矩阵中各个主题标签之间的相似度;
基于该关键词单元中关键词的相似度和概率,得到所述主题分类标签矩阵中每个主题标签的主题分值;
基于所述主题分值,确定所述至少一个关键词单元对应的主题标签;
基于所述至少一个关键词单元的主题标签,确定所述初始词集合的主题标签。
3.根据权利要求2所述的方法,其中,所述基于该关键词单元中关键词的相似度和概率,得到所述主题分类标签矩阵中每个主题标签的主题分值,包括:
针对所述主题分类标签矩阵中的各个主题标签,将该关键词单元中各关键词的相似度与概率相乘,得到各个关键词相似分值;
将该关键词单元中所有关键词的相似分值相加,得到每个主题标签的主题分值。
4.根据权利要求2所述的方法,其中,所述基于所述主题分值,确定所述至少一个关键词单元对应的主题标签,包括:
选取所述主题分类标签矩阵中主题分值最高的主题标签,作为所述至少一个关键词单元对应的主题标签。
5.根据权利要求1所述的方法,其中,所述对所述初始词集合进行关键词提取,得到至少一个关键词单元,包括:
确定所述初始词集合的至少一个主题;
计算所述初始词集合中各个词语与所述主题的相似度;
基于所述相似度和所述各个词语,得到至少一个关键词单元,每个关键词单元对应所述初始词集合的一个主题。
6.根据权利要求1-5之一所述的方法,其中,所述获取待处理文本的初始词集合,包括:
获取待处理文本;
遍历所述待处理文本中各个文本数据,对各个文本数据进行数据清洗和分词,得到初始词集合。
7.一种主题分类方法,所述方法包括:
获取主题分类模型和待分类文本,所述主题分类模型采用权利要求1-6所述的主题分类模型训练方法训练得到;
将所述待分类文本输入所述主题分类模型,得到所述待分类文本的文本主题。
8.一种文本处理方法,所述方法包括:
获取原始文本和主题分类模型,所述主题分类模型采用权利要求1-5所述的主题分类模型训练方法训练得到;
对所述原始文本进行实体识别,得到识别实体;
对所述原始文本进行文本预处理,得到预处理文本;
将所述预处理文本输入所述主题分类模型,得到所述原始文本的文本主题;
将所述文本主题与所述识别实体进行关联。
9.一种主题分类模型训练装置,所述装置包括:
集合获取单元,被配置成获取待处理文本的初始词集合;
提取单元,被配置成对所述初始词集合进行关键词提取,得到至少一个关键词单元,每个关键词单元包括:至少一个关键词;
计算单元,被配置成基于所述至少一个关键词单元以及预设的主题分类标签矩阵,计算得到所述初始词集合的主题标签;
训练单元,被配置成基于所述初始词集合以及所述主题标签,训练得到主题分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司,未经中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211546281.1/1.html,转载请声明来源钻瓜专利网。