[发明专利]基于MASK训练的辱骂识别方法在审
申请号: | 202111652552.7 | 申请日: | 2021-12-30 |
公开(公告)号: | CN114298017A | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 赵继帆;吉庆琳 | 申请(专利权)人: | 北京尘锋信息技术有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/237;G06F40/289;G06N3/08 |
代理公司: | 北京东灵通专利代理事务所(普通合伙) 61242 | 代理人: | 李金豹 |
地址: | 100020 北京市朝阳区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于数据挖掘技术领域,尤其是基于MASK训练的辱骂识别方法,包括DusBERT训练模型,具体包括以下步骤:S1:数据准备;S2:数据清洗;S3:构造字典;S4:数据增强;S5:分词构建输入;S6:MASK训练;S7:结束,所述S1的步骤中,从网络上收集脏话数据,另外收集不带脏词但语义上是辱骂的的文本,该文本实验中不作为训练数据,而仅仅作为特殊测试数据,非辱骂文本来自于之前各种任务的随机抽样。本发明从特殊测试集上来看,不需要额外准备数据,大大节省成本且达到较高水平,在未使用特殊测试集训练的情况下,能够区分包含脏字脏词但非辱骂语义以及暗喻辱骂文本,足可见模型方法的泛华能力。 | ||
搜索关键词: | 基于 mask 训练 辱骂 识别 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京尘锋信息技术有限公司,未经北京尘锋信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202111652552.7/,转载请声明来源钻瓜专利网。
- 上一篇:一种抗风沙的自散热户外电力控制柜
- 下一篇:一种可自发电的双阻力划船器