[发明专利]自动查重方法及装置在审
申请号: | 201710138286.3 | 申请日: | 2017-03-09 |
公开(公告)号: | CN106934010A | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 唐婵娟;周彪;李富山;韩荣华;张小敏 | 申请(专利权)人: | 深圳市华第时代科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市科冠知识产权代理有限公司44355 | 代理人: | 王海骏 |
地址: | 518000 广东省深圳市南山区深南大道1*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 方法 装置 | ||
技术领域
本发明涉及通讯技术领域,尤其涉及一种自动查重方法及装置。
背景技术
随着知识产权意识的提高,越来越多的普通人开始申请专利。当人们构思出技术文档并准备提出相关专利申请进行知识产权保护时,为了确保提交的专利申请文件能被授予专利权,十分有必要在提交专利申请文件之前,针对技术文档进行查重检索,现有的查重方法包括基于字符串匹配的方法、基于文档指纹的方法、基于语义知识的方法。
具体来说,基于字符串匹配的方法是基于数理统计的方法,先通过字符串匹配算法,找出技术文档与数据库中的文档相匹配的字符串数,随后利用相似性计算公式求出结果。这种基于字符串匹配的方法对字符串的选取要求很高,同时字符串匹配算法的时间复杂度较高,需要较大的资源开销和较长的计算时间。基于文档指纹的方法通过代表文档语义的文本作为“指纹”,通过比较“指纹”从而达到查重的目的,在选取“指纹”的过程中可能受到文章层次结构的影响而造成漏判。基于语义知识的方法是通过分析比较技术文档与数据库文章的自然语义相似的程度从而达到查重的目的,该方法依赖于自然语言相似性的计算,由于中文语言的复杂性,基于语义知识的判断结果正确性很难得到保证。由此可见,传统上的查重存在资源开销大、计算时间长、查重结果不准确等问题。
发明内容
本发明的主要目的在于解决目前在海量数据下无法高效快速、准确进行文档查重的问题。
为实现上述目的,本发明提供一种自动查重方法,所述方法包括:
获取待查重的文档资料,自动筛选所述文档资料的关键词;
制定文献标引表,其中,所述文献标引表包括文献标引、以及每个所述文献标引对应的一个或多个词语;
将数据库中的每篇文献资料中具有实质意义且反映主题的词语抽取出来,根据所述文献标引表为所述抽取出来的词语赋予对应的文献标引;
从所述文献标引表中查找出所述关键词对应的文献标引,将所述数据库中包含所述查找出的文献标引的文献资料检索出来;
计算所述文档资料中的每个词语与所述检索出来的文献资料中的每个词语的相似度,得到词语相似度;
根据所述词语相似度计算所述文档资料与所述检索出来的文献资料的相似度。
优选地,所述自动筛选所述文档资料的关键词具体包括:
查找所述文档资料中出现次数最多的词语,将所述出现次数最多的词语中无实质意义的词语过滤,得到具有实质意义的词语;
根据逆文档频率规则对所述具有实质意义的词语赋予相应的权重,并将具有最大权重的词语选为关键词。
优选地,所述计算所述文档资料中的词语与所述检索出来的文献资料中的词语的相似度具体包括:
基于字面信息、或词林、或知网对所述文档资料中的每个词语与所述检索出来的文献资料中的每个词语进行相似度计算。
优选地,所述根据计算出的词语相似度计算所述文档资料与所述检索出来的文献资料的相似度具体包括:
将每个所述词语相似度与第一预设值进行比较,判断是否存在大于第一预设值的词语相似度;
当某一所述词语相似度大于第一预设值,则所述文档资料中的对应词语与所述检索出来的文献资料中的对应的词语为相似词语,累计所述相似词语的个数;
根据所述相似词语的个数计算出所述文档资料与所述检索出来的文献资料的相似度。
优选地,所述文献标引包括分类号、检索词,所述数据库为专利文献数据库、所述文献资料为专利文献资料。
此外,为实现上述目的,本发明还提供所述的自动查重装置,所述装置包括:
筛选模块,用于获取待查重的文档资料,自动筛选所述文档资料的关键词,并制定文献标引表,其中,所述文献标引表包括文献标引、以及每个所述文献标引对应的一个或多个词语;
检索模块,用于将数据库中的每篇文献资料中具有实质意义且反映主题的词语抽取出来,根据所述文献标引表为所述抽取出来的词语赋予对应的文献标引,从所述文献标引表中查找出所述关键词对应的文献标引,将所述数据库中包含所述查找出的文献标引的文献资料检索出来;
评估模块,用于计算所述文档资料中的每个词语与所述检索出来的文献资料中的每个词语的相似度,得到词语相似度,根据所述词语相似度计算所述文档资料与所述检索出来的文献资料的相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华第时代科技有限公司,未经深圳市华第时代科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710138286.3/2.html,转载请声明来源钻瓜专利网。