[发明专利]一种文本检测方法及装置有效
申请号: | 201811247368.2 | 申请日: | 2018-10-25 |
公开(公告)号: | CN109271489B | 公开(公告)日: | 2020-12-15 |
发明(设计)人: | 杨俊;陈立 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/242;G06F40/295 |
代理公司: | 北京鼎佳达知识产权代理事务所(普通合伙) 11348 | 代理人: | 王伟锋;刘铁生 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 检测 方法 装置 | ||
1.一种文本检测方法,其中,所述方法包括:
获取待检测文本;
确定目标短语的共现词,所述共现词是指与目标短语搭配使用,或者是在文本中与目标短语共同出现的词语或短语;
利用所述共现词在所述待检测文本中确定待检测段落;
利用机器学习模型检测所述待检测段落中是否含有与所述目标短语相匹配的内容;
根据匹配结果和所述目标短语对应的检测规则确定所述待检测文本是否符合要求。
2.根据权利要求1所述的方法,其中,利用所述共现词在所述待检测文本中确定待检测段落包括:
对于所述目标短语的每个共现词,在所述待检测文本中查找该共现词;
每查找到该共现词,根据该共现词在待检测文本中的位置以及预设段落长度确定一个待检测段落;
若所述目标短语无共现词,或者,所述目标短语有共现词但所述待检测文本中不存在所述共现词,则将整个待检测文本确定为待检测段落。
3.根据权利要求2所述的方法,其中,所述根据该共现词在待检测文本中的位置以及预设段落长度确定一个待检测段落包括:
在待检测文本中,在查找到的该共现词前后各取预设长度的文字,得到一个待检测段落;
或者,
在待检测文本中,取长度等于预设长度且包含查找到的该共现词的段落作为待检测段落。
4.根据权利要求1所述的方法,其中,所述利用机器学习模型检测所述待检测文本段落中是否含有与所述目标短语相匹配的内容包括:
利用词向量模型检测所述待检测段落中短语的词向量与所述目标短语的词向量的相似度是否达到预设相似值;其中,所述词向量模型是基于神经网络训练得到的用于识别同义词的模型;
若达到,则确定所述待检测文本中含有与所述目标短语相匹配的内容。
5.根据权利要求1所述的方法,其中,所述确定目标短语的共现词包括:
根据目标短语从预置共现词表中获取对应的共现词,所述预置共现词表是基于与待检测文本相同技术领域的文本集合统计得到的。
6.根据权利要求1-5中任一项所述的方法,其中,所述方法还包括:
在需要识别所述目标短语对应的命名实体时,调用命名实体识别模型判断所述待检测文本中是否存在与所述目标短语对应的命名实体名称;
如果存在,则所述待检测文本符合要求;
如果不存在,则所述待检测文本不符合要求。
7.根据权利要求1-5中任一项所述的方法,其中,所述获取待检测文本包括:
将待质检语音转换为文本,得到待检测文本。
8.一种文本检测装置,其中,所述装置包括:
文本获取单元,用于获取待检测文本;
共现词确定单元,用于确定目标短语的共现词,所述共现词是指与目标短语搭配使用,或者是在文本中与目标短语共同出现的词语或短语;
段落确定单元,用于利用所述共现词确定单元得到的共现词在所述文本获取单元得到的待检测文本中确定待检测段落;
内容匹配单元,用于利用机器学习模型检测所述段落确定单元确定的待检测段落中是否含有与所述目标短语相匹配的内容;
文本检测单元,用于根据所述内容匹配单元得到的匹配结果和所述目标短语对应的检测规则确定所述待检测文本是否符合要求。
9.根据权利要求8所述的装置,其中,所述段落确定单元包括:
查找模块,用于对于所述目标短语的每个共现词,在所述待检测文本中查找该共现词;
第一确定模块,用于所述查找模块每查找到该共现词时,根据该共现词在待检测文本中的位置以及预设段落长度确定一个待检测段落;
第二确定模块,用于若所述目标短语无共现词,或者,所述目标短语有共现词但所述待检测文本中不存在所述共现词时,将整个待检测文本确定为待检测段落。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811247368.2/1.html,转载请声明来源钻瓜专利网。