[发明专利]文本打标签方法、装置、电子设备及存储介质有效

申请号：	202111098192.0	申请日：	2021-09-18
公开（公告）号：	CN113806540B	公开（公告）日：	2023-08-08
发明（设计）人：	史文鑫	申请（专利权）人：	平安银行股份有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06N3/0455;G06N3/08
代理公司：	深圳市沃德知识产权代理事务所(普通合伙) 44347	代理人：	高杰;于志光
地址：	518000 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本标签方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术及数字医疗技术，揭露一种文本打标签方法，包括：构造由相似语义文本组成的第一序列集，随机遮蔽所述第一序列集中的文本，得到第二序列集，利用所述第二序列集对预构建的语义识别模型进行预训练，得到预测的遮蔽文本及预测序列的文本相似度，当所述预测的遮蔽文本与所述第一序列集中对应的原始文本之间的第一损失值及所述预测序列的文本相似度与所述第一序列集对应的文本相似度之间的第二损失值，满足预设条件时，退出所述预训练，利用完成预训练的语义识别模型对待打标签的文本打标签。本发明还提出一种文本打标签装置、设备以及介质。本发明可以解决相似语义文本的标签不一致的问题，提升文本打标签的准确性。

技术领域

本发明涉及人工智能技术领域及数字医疗技术领域，尤其涉及一种文本打标签方法、装置、电子设备及计算机可读存储介质。

背景技术

一些用户量较大的APP通常会提供新闻资讯服务，这类新闻资讯多为外部采购，存在新闻资讯没有标签或者标签混乱的问题，给新闻资讯的审核和投放带来困难。

当前为新闻资讯打标签，主要有两种方法：

一种是通过人工对新闻数据进行全量的标注，这种方式人工成本较高，且容易出现标签分类遗漏或错误的现象。

另一种方法，利用向量空间模型(VSM,Vector Space Model)将新闻资讯从文本转换为向量空间中的向量，通过计算向量之间的相似性来度量不同新闻资讯间的相似度，再利用Kmeans方法对新闻资讯进行聚类，依据聚类结果生成新闻资讯的标签。但是这种方法针对相同的语义不同的文本时，对文本打标签的准确率比较低，存在相同语义的文本所对应的标签不一致的情况，因此对新闻资讯等文本打标签的准确率有待提升。

发明内容

本发明提供一种文本打标签方法、装置及计算机可读存储介质，其主要目的在于提升文本打标签的准确性。

为实现上述目的，本发明提供的一种文本打标签方法，包括：

构造由相似语义文本组成的第一序列集，对所述第一序列集中的文本执行随机遮蔽操作，得到包括遮蔽文本的第二序列集；

利用所述第二序列集，对预构建的语义识别模型进行遮蔽文本预测及文本相似度计算的预训练，得到包含预测的遮蔽文本的预测序列及所述预测序列中相似语义文本的预测相似度；

利用预设的第一损失函数计算所述预测的遮蔽文本与所述第一序列集中对应的原始文本之间的第一损失值，利用预设的第二损失函数计算所述预测相似度与所述第一序列集中相似语义文本的原始相似度之间的第二损失值；

将所述第一损失值与所述第二损失值组合为所述预训练的输出损失值，判断所述输出损失值是否满足预设条件；

若所述输出损失值不满足所述预设条件，则调整所述语义识别模型的参数，并返回上述的对预构建的语义识别模型进行遮蔽文本预测及文本相似度计算的预训练的步骤；

若所述输出损失值满足所述预设条件，则退出所述预训练，得到完成预训练的语义识别模型；

利用所述完成预训练的语义识别模型对待打标签的文本执行打标签操作，得到所述待打标签文本的标签。

可选地，所述构造由相似语义文本组成的第一序列集，包括：

从预设的相似语义文本库中获取相似语义文本集；