[发明专利]主题分类模型训练、主题分类、文本处理方法和装置在审
申请号: | 202211546281.1 | 申请日: | 2022-12-05 |
公开(公告)号: | CN115730075A | 公开(公告)日: | 2023-03-03 |
发明(设计)人: | 曹扬;杨迪丹;李丁丁;王维维;陈艺曦 | 申请(专利权)人: | 中电科大数据研究院有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/242;G06F40/284 |
代理公司: | 北京智桥联合知识产权代理事务所(普通合伙) 11560 | 代理人: | 金光恩 |
地址: | 550081 贵州省贵阳市贵阳*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 主题 分类 模型 训练 文本 处理 方法 装置 | ||
本公开的实施例提供一种主题分类模型训练方法,具体实现方案为:获取待处理文本的初始词集合;对初始词集合进行关键词提取,得到至少一个关键词单元,每个关键词单元包括:至少一个关键词;基于至少一个关键词单元以及预设的主题分类标签矩阵,计算得到初始词集合的主题标签;基于初始词集合以及主题标签,训练得到主题分类模型。通过本实施方式,提高了主题标签标注的效率。
技术领域
本公开的实施例涉及计算机技术领域,具体涉及自然语言处理、深度学习等技术领域,尤其涉及一种主题分类模型训练、主题分类、文本处理方法和装置。
背景技术
随着大数据时代的到来,数据信息呈现出爆炸式增长的态势。这些数据具有数据体量大、数据类型多、增长速度快、价值密度低、准确真实性,蕴含着丰富的信息资源。越来越多的政府部门、银行、企业等都非常重视对大数据的汇集、存储、整理、挖掘和应用,“数据治理”也应运而生。
数据治理的目的就是原始数据通过一系列的技术处理和整合,从而形成根据不同业务对象划分的主题数据库,但是在生成主题数据库时,各种数据的主题划分困难,需要大量的人工标注。
发明内容
本文中描述的实施例提供了一种主题分类模型训练方法和装置、主题分类方法和装置、文本处理方法和装置、电子设备以及存储有计算机程序的计算机可读存储介质。
根据本公开的第一方面,提供了一种主题分类模型训练方法。在该方法中,获取待处理文本的初始词集合;对初始词集合进行关键词提取,得到至少一个关键词单元,每个关键词单元包括:至少一个关键词;基于至少一个关键词单元以及预设的主题分类标签矩阵,计算得到初始词集合的主题标签;基于初始词集合以及主题标签,训练得到主题分类模型。
在本公开的一些实施例中,每个关键词单元还包括:各个关键词属于初始词集合的主题的概率,基于至少一个关键词单元以及预设的主题分类标签矩阵,计算得到初始词集合的主题标签,包括:针对各个关键词单元,计算该关键词单元中的关键词与预设的主题分类标签矩阵中各个主题标签之间的相似度;基于该关键词单元中关键词的相似度和概率,得到主题分类标签矩阵中每个主题标签的主题分值;基于主题分值,确定至少一个关键词单元对应的主题标签;基于至少一个关键词单元的主题标签,确定初始词集合的主题标签。
在本公开的一些实施例中,上述基于该关键词单元中关键词的相似度和概率,得到主题分类标签矩阵中每个主题标签的主题分值,包括:针对主题分类标签矩阵中的各个主题标签,将该关键词单元中各关键词的相似度与概率相乘,得到各个关键词相似分值;将该关键词单元中所有关键词的相似分值相加,得到每个主题标签的主题分值。
在本公开的一些实施例中,上述基于主题分值,确定至少一个关键词单元对应的主题标签,包括:选取主题分类标签矩阵中主题分值最高的主题标签,作为至少一个关键词单元对应的主题标签。
在本公开的一些实施例中,上述对初始词集合进行关键词提取,得到至少一个关键词单元,包括:确定初始词集合的至少一个主题;计算初始词集合中各个词语与主题的相似度;基于相似度和各个词语,得到至少一个关键词单元,每个关键词单元对应初始词集合的一个主题。
在本公开的一些实施例中,上述获取待处理文本的初始词集合,包括:获取待处理文本;遍历待处理文本中各个文本数据,对各个文本数据进行数据清洗和分词,得到初始词集合。
根据本公开的第二方面,提供了一种主题分类方法。该方法包括:获取主题分类模型和待分类文本,主题分类模型采用如第一方面任一实现方式的主题分类模型训练方法训练得到;将待分类文本输入主题分类模型,得到待分类文本的文本主题。
根据本公开的第三方面,提供了一种文本处理方法,方法包括:获取原始文本和主题分类模型,主题分类模型采用如第一方面任一实现方式的主题分类模型训练方法训练得到;对原始文本进行实体识别,得到识别实体;对原始文本进行文本预处理,得到预处理文本;将预处理文本输入主题分类模型,得到原始文本的文本主题;将文本主题与识别实体进行关联。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科大数据研究院有限公司,未经中电科大数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211546281.1/2.html,转载请声明来源钻瓜专利网。