[发明专利]一种基于文本图片检索的相似文本检测方法有效
申请号: | 201710598424.6 | 申请日: | 2017-07-21 |
公开(公告)号: | CN107330127B | 公开(公告)日: | 2020-06-05 |
发明(设计)人: | 谭貌;原思平;金继成;苏永新 | 申请(专利权)人: | 湘潭大学 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06F16/583;G06F16/53;G06N3/04;G06N3/08 |
代理公司: | 湘潭市汇智专利事务所(普通合伙) 43108 | 代理人: | 颜昌伟 |
地址: | 411105 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于文本图片检索的相似文本检测方法,包括以下步骤:建立文档库;建立文本图片库;文本图片库中图片的特征提取和降维;将检索文档分割为检索图片集;检索图片集中图片的特征提取和降维;检索图片集的余弦相似性度量;检索结果的全文相似度过滤;检索结果输出。本发明集成多种多层卷积神经网络模型训练CNN特征描述算子,获得文本图像的深层视觉表示,且通过PCA压缩降维提高相似性度量的效率,并从检索结果的过滤方面通过建立全文相似度过滤模型进行改进,对检索结果相似度进行更新,提高检索精度,直接推荐和检索任意多字符文本,具有良好的相似文本检测的能力,可用于文本重复性检查或相似文献推荐。 | ||
搜索关键词: | 一种 基于 文本 图片 检索 相似 检测 方法 | ||
【主权项】:
一种基于文本图片检索的相似文本检测方法,包括以下步骤:步骤一:建立文档库;收集文本类型文档建立文档库,为文档库中不同文档建立唯一编号索引;步骤二:建立文本图片库;将文档库中文档按段落分割并转换为图片,建立文本图片库,同时根据分割前图片所属文档的唯一编号生成“图片名称‑文档编号”索引,然后对文本图片库中每张文本图片进行等比例缩放、灰度转换预处理,转换为文本行高一致的灰度文本图片;步骤三:文本图片库中图片的特征提取和降维;基于多层卷积神经网络提取文本图片库中每张图片的特征向量,组成文本图片库对应的特征矩阵,然后采用PCA方法对提取出的特征矩阵进行压缩降维;步骤四:将检索文档分割为检索图片集;输入检索文档,将检索文档按段落分割并转换为图片,建立检索图片集,然后对检索图片集中每张文本图片进行等比例缩放、灰度转换预处理;步骤五:检索图片集中图片的特征提取和降维;用多层卷积神经网络模型提取检索图片集中每张图片的特征向量,构建检索图片集对应的特征矩阵,并采用PCA方法压缩到与文本图片库特征矩阵相同的特征点维度;步骤六:检索图片集的余弦相似性度量;对检索图片集中每张文本图片,计算其与文本图片库中所有文本图片之间的余弦相似度,并对得到的余弦相似度进行降序排列;步骤七:检索结果的全文相似度过滤;根据检索图片集中每张文本图片与文本图片库中所有文本图片之间的余弦相似度,求得检索文档与文档库文档之间的相似度均值,更新检索图片集中每张文本图片对应的余弦相似度,并按余弦相似度降序重新排序;步骤八:检索结果输出;针对检索图片集中每张图片,根据其余弦相似度选取文本图片库中图片作为输出;针对检索文档,根据相似度均值选取文档库中文档作为输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湘潭大学,未经湘潭大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710598424.6/,转载请声明来源钻瓜专利网。
- 上一篇:用于输出信息的方法和装置
- 下一篇:认证异常判断方法及装置