[发明专利]文本打标签方法、装置、电子设备及存储介质有效
申请号: | 202111098192.0 | 申请日: | 2021-09-18 |
公开(公告)号: | CN113806540B | 公开(公告)日: | 2023-08-08 |
发明(设计)人: | 史文鑫 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06N3/0455;G06N3/08 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标签 方法 装置 电子设备 存储 介质 | ||
本发明涉及人工智能技术及数字医疗技术,揭露一种文本打标签方法,包括:构造由相似语义文本组成的第一序列集,随机遮蔽所述第一序列集中的文本,得到第二序列集,利用所述第二序列集对预构建的语义识别模型进行预训练,得到预测的遮蔽文本及预测序列的文本相似度,当所述预测的遮蔽文本与所述第一序列集中对应的原始文本之间的第一损失值及所述预测序列的文本相似度与所述第一序列集对应的文本相似度之间的第二损失值,满足预设条件时,退出所述预训练,利用完成预训练的语义识别模型对待打标签的文本打标签。本发明还提出一种文本打标签装置、设备以及介质。本发明可以解决相似语义文本的标签不一致的问题,提升文本打标签的准确性。
技术领域
本发明涉及人工智能技术领域及数字医疗技术领域,尤其涉及一种文本打标签方法、装置、电子设备及计算机可读存储介质。
背景技术
一些用户量较大的APP通常会提供新闻资讯服务,这类新闻资讯多为外部采购,存在新闻资讯没有标签或者标签混乱的问题,给新闻资讯的审核和投放带来困难。
当前为新闻资讯打标签,主要有两种方法:
一种是通过人工对新闻数据进行全量的标注,这种方式人工成本较高,且容易出现标签分类遗漏或错误的现象。
另一种方法,利用向量空间模型(VSM,Vector Space Model)将新闻资讯从文本转换为向量空间中的向量,通过计算向量之间的相似性来度量不同新闻资讯间的相似度,再利用Kmeans方法对新闻资讯进行聚类,依据聚类结果生成新闻资讯的标签。但是这种方法针对相同的语义不同的文本时,对文本打标签的准确率比较低,存在相同语义的文本所对应的标签不一致的情况,因此对新闻资讯等文本打标签的准确率有待提升。
发明内容
本发明提供一种文本打标签方法、装置及计算机可读存储介质,其主要目的在于提升文本打标签的准确性。
为实现上述目的,本发明提供的一种文本打标签方法,包括:
构造由相似语义文本组成的第一序列集,对所述第一序列集中的文本执行随机遮蔽操作,得到包括遮蔽文本的第二序列集;
利用所述第二序列集,对预构建的语义识别模型进行遮蔽文本预测及文本相似度计算的预训练,得到包含预测的遮蔽文本的预测序列及所述预测序列中相似语义文本的预测相似度;
利用预设的第一损失函数计算所述预测的遮蔽文本与所述第一序列集中对应的原始文本之间的第一损失值,利用预设的第二损失函数计算所述预测相似度与所述第一序列集中相似语义文本的原始相似度之间的第二损失值;
将所述第一损失值与所述第二损失值组合为所述预训练的输出损失值,判断所述输出损失值是否满足预设条件;
若所述输出损失值不满足所述预设条件,则调整所述语义识别模型的参数,并返回上述的对预构建的语义识别模型进行遮蔽文本预测及文本相似度计算的预训练的步骤;
若所述输出损失值满足所述预设条件,则退出所述预训练,得到完成预训练的语义识别模型;
利用所述完成预训练的语义识别模型对待打标签的文本执行打标签操作,得到所述待打标签文本的标签。
可选地,所述构造由相似语义文本组成的第一序列集,包括:
从预设的相似语义文本库中获取相似语义文本集;
根据预设的组合方式,将所述相似语义文本集中每两个相似语义文本组合成一个序列,直到所述相似语义文本集中所有文本都完成组合,得到由相似语义文本组成的第一序列集。
可选地,所述对所述第一序列集中的文本执行随机遮蔽操作,包括:
在所述第一序列集中,随机选择预设遮蔽文本比例的文本,得到待遮蔽文本;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111098192.0/2.html,转载请声明来源钻瓜专利网。