[发明专利]文本检测方法、装置、电子设备以及计算机可读存储介质在审
申请号: | 202210869399.1 | 申请日: | 2022-07-22 |
公开(公告)号: | CN115204181A | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 徐睿峰;王乾龙;王睿;温志渊 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06K9/62;G06F16/35;G06F40/253;G06F40/268;G06N3/04;G06N3/08 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 刘芬芬 |
地址: | 518063 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 检测 方法 装置 电子设备 以及 计算机 可读 存储 介质 | ||
本申请公开了文本检测方法、装置、电子设备以及计算机可读存储介质,文本检测方法,包括:获取到待检测文本;遮盖待检测文本的每个正向情感词,得到第一掩码文本;以及,遮盖待检测文本的每个负向情感词,得到第二掩码文本;对第一掩码文本中被掩盖的正向情感词进行预测,以生成第一重构文本;以及,对第二掩码文本中被掩盖的负向情感词进行预测,以生成第二重构文本;确定第一重构文本与待检测文本的第一相似度以及第二重构文本与待检测文本的第二相似度;响应于第一相似度和/或第二相似度小于设定阈值,确定待检测文本为讽刺文本。本申请不仅能够提高对讽刺文本的检测准确率,还能够节省大量的数据标注工作,实现无监督讽刺检测。
技术领域
本申请涉及自然语言处理领域,特别是涉及文本检测方法、装置、电子设备以及计算机可读存储介质。
背景技术
随着互联网技术的快速发展,人们通常用积极的或强化积极的词语在社交媒体上表达自己的讽刺情绪。当文本存在讽刺内容时,就会翻转句子的情感极性,改变其实际暗示的情绪。
现有技术中,讽刺检测方法主要依赖于大量的标记数据来建模复杂的特征表示,构建上下文信息需要设计和实现复杂的特征提取,建立的模型也需要大量的标记数据和复杂的深度学习网络。
然而,繁重的数据标注工作和复杂的模型构建使得讽刺检测模型很难应用到真实场景中,导致目前的检测方法容易对社交平台上出现的具有的讽刺意味的文本的判别出现较大失误,检测模型对讽刺文本的检测准确率较低,难以满足检测需求。
发明内容
本申请主要解决的技术问题是提供文本检测方法、装置、电子设备以及计算机可读存储介质,能够解决现有技术中无法较好地检测讽刺文本的问题。
为解决上述技术问题,本申请采用的第一技术方案是提供一种文本检测方法,包括:获取到待检测文本;遮盖待检测文本的每个正向情感词,得到第一掩码文本;以及,遮盖待检测文本的每个负向情感词,得到第二掩码文本;对第一掩码文本中被掩盖的正向情感词进行预测,以生成第一重构文本;以及,对第二掩码文本中被掩盖的负向情感词进行预测,以生成第二重构文本;确定第一重构文本与待检测文本的第一相似度以及第二重构文本与待检测文本的第二相似度;响应于第一相似度和/或第二相似度小于设定阈值,确定待检测文本为讽刺文本。
其中,获取到待检测文本的步骤后,包括:对待检测文本中的每个字符进行词性标注;遮盖待检测文本的每个正向情感词,得到第一掩码文本;以及,遮盖待检测文本的每个负向情感词,得到第二掩码文本的步骤,包括:从被标注的待检测文本中识别出每个情感词,基于情感词的极性将情感词分类为正向情感词或负向情感词;以及从被标注的待检测文本中识别出非情感词的每个动词或/和每个名词,并将动词或/和名词确定为成分词;利用掩码字符掩盖待检测文本中的正向情感词以及至少部分成分词,生成第一掩码文本;以及利用掩码字符掩盖待检测文本中的负向情感词以及相同的成分词,生成第二掩码文本。
其中,从被标注的待检测文本中识别出每个情感词,基于情感词的极性将情感词分类为正向情感词或负向情感词,包括:利用外部情感资源词汇库从被标注的待检测文本中识别出每个情感词为正向情感词或负向情感词,并划分到对应的正向情感词集合或负向情感词集合中;从被标注的待检测文本中识别出非情感词的每个动词或/和每个名词,并将动词或/和名词确定为成分词的步骤,包括:利用自然语言处理工具获取到待检测文本的语法信息;基于语法信息从被标注的待检测文本中识别出非情感词的每个动词或/和每个名词,并将动词或/和名词确定为成分词;将每个成分词划分到成分词集合中,并将成分词集合划分为至少两个子集;利用掩码字符掩盖待检测文本中的正向情感词以及至少部分成分词,生成第一掩码文本;以及利用掩码字符掩盖待检测文本中的负向情感词以及相同的成分词,生成第二掩码文本的步骤,包括:利用掩码字符掩盖正向情感词集合与其中一个子集中包括的全部字符,以生成第一掩码文本;以及利用掩码字符掩盖负向情感词集合与相同子集中包括的全部字符,以生成第二掩码文本。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210869399.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:手机银行医疗报销方法及装置
- 下一篇:一种镭射转移膜生产装置及其生产方法