[发明专利]一种分类标签更新方法及系统有效
| 申请号: | 202211238893.4 | 申请日: | 2022-10-11 |
| 公开(公告)号: | CN115310564B | 公开(公告)日: | 2023-01-13 |
| 发明(设计)人: | 靳雯;赵洲洋;石江枫;王全修;于伟;王明超 | 申请(专利权)人: | 北京睿企信息科技有限公司;日照睿安信息科技有限公司 |
| 主分类号: | G06F18/241 | 分类号: | G06F18/241;G06F18/22;G06F18/23213;G06F40/289;G06F40/284 |
| 代理公司: | 北京锺维联合知识产权代理有限公司 11579 | 代理人: | 李慧敏 |
| 地址: | 100013 北京市东*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 分类 标签 更新 方法 系统 | ||
本发明涉及数据处理技术领域,具体涉及一种分类标签更新方法及系统,通过提取第m个待更新的分类标签中第q个文本条目Vmq中的词向量,并通过提取待匹配的分类标签对应的关键词词向量,计算Vmq中词向量与关键词词向量之间的相似度,为了计算Vmq与第i个待匹配的分类标签之间的相似度,需要计算第i个待匹配的分类标签中每个关键词词向量分别与Vmq中每个词向量之间的综合相似度,在综合相似度大于相似度阈值时,将第q个文本条目对应的分类标签更新为最大值对应的分类标签,解决了现有技术中无法消除人为主观因素对分类的影响的技术问题。
技术领域
本发明涉及数据处理技术领域,具体涉及一种分类标签更新方法及系统。
背景技术
在对某一个文本条目进行分类时,工作人员会根据文本条目的实际内容将相应的文本条目进行分类,一般情况下文本条目的分类是将有明确类别的赋予相应类别,没有明确类别的归为其他类别。但是由于工作人员的主观因素的影响以及有些文本条目中涉及多个类别的关键词时,工作人员可能会将本应属于A类别的文本条目标注为其他类别,或者将A类别的文本条目标注为B类别,进而导致存在较多分类错误的类别,当前常规的做法是人工更正文本条目分类的错误问题,但是人工更正的方式不仅耗费人力,而且依然无法消除人为主观因素对分类的影响。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种分类标签更新方法及系统,所采用的技术方案具体如下:
第一方面,本发明一个实施例提供了一种分类标签更新方法,该方法包括:
S100,获取用户指定的L个待匹配的分类标签{D1,D2,…,Di,…,DL},其中,Di为第i个待匹配的分类标签,i的取值范围为1到L,L为待匹配的分类标签的数量;Di具有J个关键词词向量{Di1,Di2,…,Dij,…,DiJ},其中,Dij为Di中的第j个关键词词向量,j的取值范围为1到J,J为Di中关键词词向量数量。
S200,获取用户指定的第m个待更新的分类标签中的第q个文本条目Umq,获取Umq的R个词向量集合Vmq={Vmq1,Vmq2,…,Vmqr…,VmqR},其中,Vmqr为Vmq中的第r个词向量,Vmqr与Dij的向量维度相同,R为Vmq中词向量的数量。
S300,计算Vmq分别与每个待匹配的分类标签中所有关键词词向量之间的综合相似度SIM={SIM1 SIM2,…,SIMi,…,SIML},其中,SIMi为Vmq中R个词向量与Di中J个关键词词向量之间的向量相似度的加权求和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京睿企信息科技有限公司;日照睿安信息科技有限公司,未经北京睿企信息科技有限公司;日照睿安信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211238893.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种矿山输运装置
- 下一篇:多功能滤芯及其制备方法





