[发明专利]一种短文本标签标注方法及装置在审
申请号: | 202211385441.9 | 申请日: | 2022-11-07 |
公开(公告)号: | CN115687621A | 公开(公告)日: | 2023-02-03 |
发明(设计)人: | 张璐;郑秀敏 | 申请(专利权)人: | 中国农业银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 卫三娟 |
地址: | 100005 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 标签 标注 方法 装置 | ||
本申请公开一种短文本标签标注方法及装置,所述方法包括:根据样本间的相似度对样本进行初步聚类,通过从样本中提取出的词语组成的标签库,对样本进行打标,提高了样本标签的统一性;在对样本进行打标时,从各个聚类中选择多个相似度较低的样本进行打标,提高了对于样本的文本标注效率;根据每轮的打标结果对所述聚类进行更新,动态控制各个聚类的裂变程度,当在第j个聚类中的已标注样本包含L个不同标签时,根据所述第j个聚类中未标注样本与所述L个标签之间的相似度,将所述第j个聚类按照所述L个标签进行聚类更新,其中L≥2;当聚类稳定后获得最终的已标注样本,提高了已标注样本中标签的覆盖率,进而提高了已标注样本的质量。
技术领域
本申请涉及数据处理领域,具体涉及一种短文本标签标注方法及装置。
背景技术
随着金融监管逐步趋严、金融业务融合的快速发展,商业银行数字化转型已成为必然趋势。数字化转型促进银行业务快速发展,商业银行对合规管理能力升级的迫切需求使得智慧合规管理体系的建设势在必行。其中,外部监管规则、外部规章制度、内部规章制度作为重要的合规数据资产,是合规标签体系建设的主要来源,对其进行有效的文本标注对后续标签体系数字化构建具有重要意义。
在相关技术中,对文本标注标签的方法是通过人工随机抽取样本进行打标,但这种方法常常会出现某一标签下样本数量过多,而有的标签下样本数量过少甚至没有样本的情况,最终获得的标注样本无法涵盖所有标签,样本质量较低,影响后续通过机器学习等模型学习文本分类的查准率与查全率。
发明内容
有鉴于此,本申请第一方面提供了一种短文本标签标注方法,包括:
通过计算样本间的相似度将所述样本分为M个聚类;
在第i轮打标过程中,对第j个聚类进行打标时,从所述第j个聚类中选择所述相似度低于标注阈值的未标注样本作为待标注样本;其中,在所述第j个聚类中,已标注样本具有相同的标签,j≤M;
使用标签库中的标签对所述待标注样本进行打标,并根据所述待标注样本的打标结果更新所述第j个聚类中的所述已标注样本;其中,所述标签库是根据所述样本中的词语生成的;
当在所述第j个聚类中的已标注样本包含L个不同标签时,根据所述第j个聚类中所述未标注样本与所述L个标签之间的相似度,将所述第j个聚类按照所述L个标签进行聚类更新,其中L≥2;
根据所述第i轮打标结束后的聚类数量更新所述M值,并判断所述第i轮打标结束后的M值与第i-1轮打标结束后的M值是否相同;
如果是,输出所述已标注样本;
如果否,进入第i+1轮打标。
优选地,在所述当在所述第j个聚类中的已标注样本包含L个不同标签时,根据所述第j个聚类中所述未标注样本与所述L个标签之间的相似度,将所述第j个聚类按照所述L个标签进行聚类更新之后,所述根据所述第i轮打标结束后的聚类数量更新所述M值,并判断所述第i轮打标结束后的M值与第i-1轮打标结束后的M值是否相同之前,进一步包括:
在所述第i轮打标结束后得到的聚类中,当存在Q个聚类中所述已标注样本的标签相同时,对所述Q个聚类进行聚合,其中,Q≥2。
优选地,在所述在第i轮打标过程中,对第j个聚类进行打标时,从所述第j个聚类中选择所述相似度低于标注阈值的未标注样本作为待标注样本之前进一步包括:
根据第j个标签优先级,从所述第j个聚类中选择K个未标注样本;其中,在所述第j个聚类中,所述已标注样本的标签为所述第j个标签优先级对应的第j个标签,所述K值与所述第j个标签优先级正相关;
所述在第i轮打标过程中,对第j个聚类进行打标时,从所述第j个聚类中选择所述相似度低于标注阈值的未标注样本作为待标注样本包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业银行股份有限公司,未经中国农业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211385441.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于大数据的信息收集系统与方法
- 下一篇:一种电芯测试夹具及电芯振动测试工装