[发明专利]一种多格式文档录入并比对的方法有效
申请号: | 201310696955.0 | 申请日: | 2013-12-18 |
公开(公告)号: | CN103823838B | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 鞠非;华凯;顾梅;吴国奇;汤丹 | 申请(专利权)人: | 国网江苏省电力有限公司常州供电分公司;国网江苏省电力有限公司;国家电网公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 常州市江海阳光知识产权代理有限公司 32214 | 代理人: | 陆文俊 |
地址: | 213003*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 格式 文档 录入 方法 | ||
本发明涉及一种多格式文档录入并比对的方法,首先判断待录入文档是否为纸质文档,如果是纸质文档则通过前端设备将纸制文件自动扫描录入原始格式文档库中,如果是电子文档则直接录入原始格式文档库中,再将原始格式文档库中的所有文档转换为统一格式的文档,然后对文档进行关键属性标注和基础管理,最后通过Nakastu算法和分词系统进行基于内容的文档比对,并将根据比对相似程度进行文档关联且录入数据库中。本发明能将各类型和格式的文档自动录入、统一分类、智能管理和与已有文件的比对,提高文档利用效率,节省文档比对时间,提升文档管理效率。
技术领域
本发明涉及文档处理管理领域,更具体的涉及一种将电子文档或纸质文档录入并进行比对的方法。
背景技术
目前典型的文档比对技术应用有:(1)信息智能检索:搜索引擎对用户输入关键字的反应是列出所有与该关键字相匹配的信息。(2)自动问答系统:在这种系统中,问题是多种多样,且非常巨大的,有些问题是非常相似的,如果用人工来回答,将耗费大量的时间和人力,如果在这种系统中应用文本相似度技术,将相似度很高的问题归为一类,使系统对这类问题自动做出答复,将节省大量的时间。(3)文本查重:在某些领域,考虑到隐私性和独创性,要求文本不能重复出现,那么应用文本相似度技术,对这类文本进行相似度的计算,就可以看出哪些文本多次出现。由上述,文档比对技术越来越多地应用在各个领域。
目前,对文档的比对分析管理研究主要集中在文本相似度计算,对于文本相似度计算侧重在字符串相似度,已经形成比较成熟的聚类算法,但是这些算法在比较的过程中没有考虑文本或者字符的语义,计算出来的相似度参考度不高,在实际应用过程中给用户提供参考价值不高。虽然通过分词来计算文本相似度,即通过中文分词算法按照语义角度进行分词,然后根据分词和比对算法结合计算文本之间的相似度,其重点是从词语级来比对文档之间相似度。但这些文档比对支持的文档都是单一的TXT文本或者Word文件,对于多格式文档的比对无法直接进行,需要事先由人工进行格式转换后才能比较,大大影响工作效率。
发明内容
本发明要解决的技术问题是提供一种可以对多种格式的文档录入并进行比对的方法。
实现本发明目的的技术方案是提供一种多格式文档录入并比对的方法,包括如下步骤:
①判断需要录入的文档是否为纸制文档,如果为纸制文档则将需要录入的纸制文档按照先后次序叠放整齐后放置到扫描设备上,通过扫描设备将文档扫描成PDF格式的电子文档并存储到与扫描设备电连接的计算机的存储设备的原始格式文档库中;
如果是包括PDF、Word或TXT在内的多种格式的电子文档,则直接存储到计算机的存储设备的原始格式文档库中;
②通过计算机对原始格式文档库中的各个电子文档转换成统一格式的文档并存储到计算机的存储设备的统一格式文档库中,可以根据需要自行设定转换后的文件格式,优选的文件格式为Word格式或TXT文本形式,如果原始的电子文档的文件格式与设定转换后的文件格式一致则直接从原始格式文档库拷贝至统一格式文档库;
③对转换后统一格式成Word格式或TXT文本形式的各个电子文档的内容,通过分词系统将各个文档的内容提取为句子集合,并以与各个文档相对应的条目的形式存储到句子数据表中;
④对转换后统一格式成Word格式或TXT文本形式的各个电子文档进行包括类别、标题、来源、关键词、创建时间在内的关键属性的标注,并以与各个文档相对应的条目的形式存储到句子数据表中;
⑤选择最新录入统一格式文档库的一个文档或者统一格式文档库内某个文档作为待比对文档与统一格式文档库的其他所有文档进行比对,首先通过句子数据表根据文档的包括类别、标题、来源、关键词、创建时间在内的关键属性进行比对和匹配,从而从统一格式文档库中筛选出包括类别、标题、来源、关键词、创建时间在内的关键属性中的任一个属性与待比对文档的类别、标题、来源、关键词、创建时间5个关键属性的任一个属性匹配的所有文档;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网江苏省电力有限公司常州供电分公司;国网江苏省电力有限公司;国家电网公司,未经国网江苏省电力有限公司常州供电分公司;国网江苏省电力有限公司;国家电网公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310696955.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种去除X射线影像滤线栅条纹的方法及系统
- 下一篇:在线内容采集