[发明专利]自动查重方法及装置在审
申请号: | 201710138286.3 | 申请日: | 2017-03-09 |
公开(公告)号: | CN106934010A | 公开(公告)日: | 2017-07-07 |
发明(设计)人: | 唐婵娟;周彪;李富山;韩荣华;张小敏 | 申请(专利权)人: | 深圳市华第时代科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 深圳市科冠知识产权代理有限公司44355 | 代理人: | 王海骏 |
地址: | 518000 广东省深圳市南山区深南大道1*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 方法 装置 | ||
1.一种自动查重方法,其特征在于,包括:
获取待查重的文档资料,自动筛选所述文档资料的关键词;
制定文献标引表,其中,所述文献标引表包括文献标引、以及每个所述文献标引对应的一个或多个词语;
将数据库中的每篇文献资料中具有实质意义且反映主题的词语抽取出来,根据所述文献标引表为所述抽取出来的词语赋予对应的文献标引;
从所述文献标引表中查找出所述关键词对应的文献标引,将所述数据库中包含所述查找出的文献标引的文献资料检索出来;
计算所述文档资料中的每个词语与所述检索出来的文献资料中的每个词语的相似度,得到词语相似度;
根据所述词语相似度计算所述文档资料与所述检索出来的文献资料的相似度。
2.如权利要求1所述的自动查重方法,其特征在于,所述自动筛选所述文档资料的关键词具体包括:
查找所述文档资料中出现次数最多的词语,将所述出现次数最多的词语中无实质意义的词语过滤,得到具有实质意义的词语;
根据逆文档频率规则对所述具有实质意义的词语赋予相应的权重,并将具有最大权重的词语选为关键词。
3.如权利要求1所述的自动查重方法,其特征在于,所述计算所述文档资料中的词语与所述检索出来的文献资料中的词语的相似度具体包括:
基于字面信息、或词林、或知网对所述文档资料中的每个词语与所述检索出来的文献资料中的每个词语进行相似度计算。
4.如权利要求1所述的自动查重方法,其特征在于,所述根据计算出的词语相似度计算所述文档资料与所述检索出来的文献资料的相似度具体包括:
将每个所述词语相似度与第一预设值进行比较,判断是否存在大于第一预设值的词语相似度;
当某一所述词语相似度大于第一预设值,则所述文档资料中的对应词语与所述检索出来的文献资料中的对应的词语为相似词语,累计所述相似词语的个数;
根据所述相似词语的个数计算出所述文档资料与所述检索出来的文献资料的相似度。
5.如权利要求1-4任意一项所述的自动查重方法,其特征在于,所述文献标引包括分类号、检索词,所述数据库为专利文献数据库、所述文献资料为专利文献资料。
6.一种自动查重装置,其特征在于,包括:
筛选模块,用于获取待查重的文档资料,自动筛选所述文档资料的关键词,并制定文献标引表,其中,所述文献标引表包括文献标引、以及每个所述文献标引对应的一个或多个词语;
检索模块,用于将数据库中的每篇文献资料中具有实质意义且反映主题的词语抽取出来,根据所述文献标引表为所述抽取出来的词语赋予对应的文献标引,从所述文献标引表中查找出所述关键词对应的文献标引,将所述数据库中包含所述查找出的文献标引的文献资料检索出来;
评估模块,用于计算所述文档资料中的每个词语与所述检索出来的文献资料中的每个词语的相似度,得到词语相似度,根据所述词语相似度计算所述文档资料与所述检索出来的文献资料的相似度。
7.如权利要求6所述的自动查重装置,其特征在于,
所述筛选模块,具体用于查找所述文档资料中出现次数最多的词语,将所述出现次数最多的词语中无实质意义的词语过滤,得到具有实质意义的词语,根据逆文档频率规则对所述具有实质意义的词语赋予相应的权重,并将具有最大权重的词语选为关键词。
8.如权利要求6所述的自动查重装置,其特征在于,
所述评估模块,具体用于基于字面信息、或词林、或知网对所述文档资料中的每个词语与所述检索出来的文献资料中的每个词语进行相似度计算。
9.如权利要求6所述的自动查重装置,其特征在于,
所述评估模块,具体还用于将每个所述词语相似度与第一预设值进行比较,判断是否存在大于第一预设值的词语相似度,当某一所述词语相似度大于第一预设值,则所述文档资料中的对应词语与所述检索出来的文献资料中的对应的词语为相似词语,累计所述相似词语的个数,根据所述相似词语的个数计算出所述文档资料与所述检索出来的文献资料的相似度。
10.如权利要求6-9任意一项所述的自动查重装置,其特征在于,
所述文献标引包括分类号、检索词,所述数据库为专利文献数据库、所述文献资料为专利文献资料。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华第时代科技有限公司,未经深圳市华第时代科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710138286.3/1.html,转载请声明来源钻瓜专利网。