[发明专利]一种文本检测方法及装置有效
申请号: | 201811247368.2 | 申请日: | 2018-10-25 |
公开(公告)号: | CN109271489B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 杨俊;陈立 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/242;G06F40/295 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 检测 方法 装置 | ||
本发明公开了一种文本检测方法及装置,涉及文本检测技术领域,主要目的在提高文本检测的准确性。本发明主要的技术方案为:获取待检测文本;确定目标短语的共现词;利用所述共现词在所述待检测文本中确定待检测段落;利用机器学习模型检测所述待检测段落中是否含有与所述目标短语相匹配的内容;根据匹配结果和所述目标短语对应的检测规则确定所述待检测文本是否符合要求。本发明用于对文本的规范性检测。
技术领域
本发明涉及文本检测技术领域,尤其涉及一种文本检测方法及装置。
背景技术
随着互联网的出现和发展,文本文献在互联网上的数量发展更加迅猛,文本检测技术已广泛地应用于文件检索、舆情管理等领域,通过检测文本中是否含有用户设置的短语或句子等信息来确定该文本内容中是否含有用户所需的数据内容。
目前,常用的文本检测多是基于用户设置的关键词进行匹配,或者是利用自然语言处理技术计算出多个该关键词的近义词,并利用这些词进行文本检测。然而,在很多情况下,尤其是一词多义的情况下,采用现有的检测方式由于很难确定用户设置的关键词的语义,更无法通过简单的近义词进行查找与匹配,因此,通过现有检测方式得到的检测结果依然存在准确性低、适用范围窄的问题。
发明内容
鉴于上述问题,本发明提出了一种文本检测方法及装置,主要目的在于提高文本检测的准确性。
为达到上述目的,本发明主要提供如下技术方案:
一方面,本发明提供一种文本检测方法,具体包括:
获取待检测文本;
确定目标短语的共现词;
利用所述共现词在所述待检测文本中确定待检测段落;
利用机器学习模型检测所述待检测段落中是否含有与所述目标短语相匹配的内容;
根据匹配结果和所述目标短语对应的检测规则确定所述待检测文本是否符合要求。
优选地,利用所述共现词在所述待检测文本中确定待检测段落包括:
对于所述目标短语的每个共现词,在所述待检测文本中查找该共现词;
每查找到该共现词,根据该共现词在待检测文本中的位置以及预设段落长度确定一个待检测段落;
若所述目标短语无共现词,或者,所述目标短语有共现词但所述待检测文本中不存在所述共现词,则将整个待检测文本确定为待检测段落。
优选地,所述根据该共现词在待检测文本中的位置以及预设段落长度确定一个待检测段落包括:
在待检测文本中,在查找到的该共现词前后各取预设长度的文字,得到一个待检测段落;
或者,
在待检测文本中,取长度等于预设长度且包含查找到的该共现词的段落作为待检测段落。
优选地,所述利用机器学习模型检测所述待检测文本段落中是否含有与所述目标短语相匹配的内容包括:
利用词向量模型检测所述待检测段落中短语的词向量与所述目标短语的词向量的相似度是否达到预设相似值;其中,所述词向量模型是基于神经网络训练得到的用于识别同义词的模型;
若达到,则确定所述待检测文本中含有与所述目标短语相匹配的内容。
优选地,所述确定目标短语的共现词包括:
根据目标短语从预置共现词表中获取对应的共现词,所述预置共现词表是基于与待检测文本相同技术领域的文本集合统计得到的。
优选地,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811247368.2/2.html,转载请声明来源钻瓜专利网。