[发明专利]错别字识别方法、装置、设备及可读存储介质在审
| 申请号: | 202110227739.6 | 申请日: | 2021-03-01 |
| 公开(公告)号: | CN113705213A | 公开(公告)日: | 2021-11-26 |
| 发明(设计)人: | 王晨琛 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F40/279 | 分类号: | G06F40/279;G06F40/30;G06F16/903;G06F16/906;G06N3/04;G06N3/08 |
| 代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 朱佳 |
| 地址: | 518044 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 错别字 识别 方法 装置 设备 可读 存储 介质 | ||
1.一种错别字识别方法,其特征在于,包括:
获取针对已发布的媒体内容的目标评论数据;
根据所述目标评论数据包含的各个词语的上下文信息,提取所述目标评论数据对应的目标文本特征;
基于所述目标文本特征,确定所述目标评论数据中包含有针对错别字的目标评论内容;
基于所述目标评论内容,确定所述媒体内容中的错别字信息。
2.如权利要求1所述的方法,其特征在于,所述根据所述目标评论数据包含的各个词的上下文信息,提取所述目标评论数据的目标文本特征,包括:
将所述目标评论数据输入已训练的评论数据分类模型;
基于所述评论数据分类模型中的语言学习子模型,对所述目标评论数据包含的各个词语的上下文信息进行特征提取,获得所述目标评论数据对应的目标文本特征;
其中,所述语言学习子模型是将历史评论数据作为训练样本,基于所述训练样本包含的各个词语的上下文信息,对所述语言学习子模型进行特征学习的训练得到的。
3.如权利要求2所述的方法,其特征在于,所述评论数据分类模型还包括预测子模型,基于所述目标文本特征,确定所述目标评论数据中包含有针对错别字的目标评论内容,包括:
将所述目标文本特征输入所述预测子模型;
基于所述预测子模型已学习的第一关联度,预测所述目标文本特征与目标数据识别结果之间的第二关联度,所述第一关联度是基于历史评论数据对应的历史文本特征和所述目标数据识别结果之间的关联程度确定的,所述目标数据识别结果用于表征文本数据中包含有针对错别字的评论内容;
若所述第二关联度大于关联度阈值,则确定所述目标评论数据中包含所述目标评论内容。
4.如权利要求2所述的方法,其特征在于,所述语言学习子模型是通过下列方式训练得到的:
基于历史评论数据集合,对所述语言学习子模型进行训练操作,一次训练操作包括:针对从所述历史评论数据集合获得的各个历史评论数据,分别执行文本预测操作,确定所述各个历史评论数据各自对应的预测偏差;并基于各个历史评论数据各自对应的预测偏差,对所述语言学习子模型进行参数调整;
其中,所述文本预测操作包括:
按照所述各个历史评论数据中一个历史评论数据的语言形式关联的分词规则,对所述一个历史评论数据进行分词处理,获得所述一个历史评论数据包含的至少一个词语;
基于预设词语掩膜,屏蔽所述至少一个词语中的部分词语;以及
确定所述部分词语在所述一个历史评论数据中的上下文信息,并从预配置的候选词库中,选取出与确定的上下文信息之间的匹配度满足匹配度条件的候选词语,所述候选词库基于所述历史评论数据集合确定;
将所述部分词语和选取出的候选词语之间的偏差信息,确定为所述一个历史评论数据对应的预测偏差。
5.如权利要求1-4任一项所述的方法,其特征在于,所述基于所述目标评论内容,确定所述媒体内容中的错别字信息,包括:
基于用于识别所述错别字信息的预配置的正则表达式,对所述目标评论内容进行解析,获得相应的解析结果;
基于所述解析结果,确定所述目标评论内容关联的至少一个错别字,和所述至少一个错别字在所述媒体内容中的文本位置信息;
将所述至少一个错误字和所述文本位置信息,确定为所述媒体内容中的错别字信息。
6.如权利要求5所述的方法,其特征在于,所述方法进一步包括:
若基于所述解析结果未获得所述错别字信息,则基于预配置的错别字检测规则,对所述媒体内容进行错别字检测,获得检测结果;
根据所述检测结果,确定所述媒体内容中是否包含对应的错别字信息。
7.如权利要求1-4任一项所述的方法,其特征在于,所述基于所述目标评论内容,确定所述媒体内容中的错别字信息,包括:
获取发布所述目标评论数据的目标账户的账户信息;
基于所述账户信息,确定所述目标评论数据的置信度;
确定所述置信度达到置信度阈值时,基于所述目标评论内容,确定所述媒体内容中的错别字信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110227739.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:新词发现方法及装置、电子设备及存储介质
- 下一篇:输注连接管线





