[发明专利]一种基于文档混合特征的文档相似度判定方法和装置有效
申请号: | 201711041146.0 | 申请日: | 2017-10-30 |
公开(公告)号: | CN107656909B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 魏效征;王志海;喻波;安鹏 | 申请(专利权)人: | 北京明朝万达科技股份有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100097 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于文档混合特征的文档相似度判定方法和装置,该方法包括以下步骤:对输入的文件或者数据流进行正则表达式匹配;如果匹配失败,则结束,如果匹配成功,对正则表达式匹配输出的多个特征字符串进行特征再处理;分别对特征再处理的多个结果进行链表管理,形成多个特征链表;对多个特征链表进行链表遍历和特征归并处理;输出相似度判定结果。通过本方案,大大提高结构化文档中表格数据的识别能力,可以大幅度条excel表格类型的文档相似度的判定能力,速度更快,容易理解,适合实际业务需要,为数据管控提供了坚实的技术能力。 | ||
搜索关键词: | 一种 基于 文档 混合 特征 相似 判定 方法 装置 | ||
【主权项】:
一种基于文档混合特征的文档相似度判定方法,包括以下步骤:1).对输入的文件或者数据流进行正则表达式匹配;2).如果匹配失败,跳转到步骤7),如果匹配成功,得到多种特征,跳转到步骤3);3).对每种特征的特征值进行链表管理,形成多个特征链表;4).由所述多个特征链表中的特征值及其在链表中的位置构成多个特征序列;5).计算序列之间的相似度;6).输出相似度判定结果;7).结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明朝万达科技股份有限公司,未经北京明朝万达科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711041146.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种微型压力传感器
- 下一篇:带有报警功能的挤出机进料装置