[发明专利]一种科技项目查重对比的方法有效
申请号: | 201610000825.2 | 申请日: | 2016-01-04 |
公开(公告)号: | CN105718506B | 公开(公告)日: | 2019-03-05 |
发明(设计)人: | 胡新炜;史丽男 | 申请(专利权)人: | 胡新炜 |
主分类号: | G06F16/832 | 分类号: | G06F16/832;G06F16/835 |
代理公司: | 烟台智宇知识产权事务所(特殊普通合伙) 37230 | 代理人: | 董尚风 |
地址: | 264000 山东省烟*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明一种科技项目查重对比的方法涉及信息内容相似度的查重的方法,尤其是涉及利用科技立项过程中确定申请的文件材料是否重复的查重的方法。具体的技术方案为:一种科技项目查重对比的方法,其特殊之处在于,是通过下述步骤实现的:将待比对的项目和已知的项目输入数据格式化模块,并依次通过分词处理模块、查重比对模块、查重判定模块、报告模块,最终获得项目相似度评价表。本发明的技术方案具有在检索查重领域快速、准确的特点。 | ||
搜索关键词: | 一种 科技 项目 对比 方法 | ||
【主权项】:
1.一种科技项目查重对比的方法,其特征在于,是通过下述步骤实现的:将待比对的项目和已知的项目这两个项目输入数据格式化模块,并依次通过文本判定模块、分词处理模块、查重比对模块、查重判定模块、报告模块,最终获得项目相似度评价表;所述的数据格式化模块之前设置有比对检索模块;所述的查重判定模块和报告模块之间设置比对存储模块,所述的比对存储模块将两个项目比对文件中的字段标签下的特征词文本和查重判定结果存储到比对数据库中备查;A,数据格式化模块:将两个项目中各个字段信息使用UTF‑8编码进行格式化编码;B,文本判定模块:计算数据格式化模块格式化后文本的大小,当大于150字节,则标记为长文本,否则标记短文本;C,分词处理模块:对格式化后的项目各个字段信息分词,并将分词后的字段特征文本以字段名为标签存入项目比对文件形成特征词集合,且分词处理模块中还分为长文本分词模块和短文本分词模块;长文本分词模块:对长文本进行分词,分词采用Simhash算法,得到特征词对,其中包括特征词和权重,权重是通过计算每个特征词在文本中的出现次数得出;短文本分词模块:对短文本进行分词,分词采用Shingle算法,对于短文本长度为L,每隔N个字符切一个特征词,如此切下去一共可以得到L‑N+1个特征词;D,查重比对模块:依次取出两个项目比对文件中相同字段名标签下的特征词文本,为两个项目的逐项比对做好准备;长文本比对模块:先取两个项目相同字段名标签下的特征词对集合,分别采用64位Simhash方法处理这两个集合,分别生成指纹签名集,比较这两个指纹签名集的海明距离来判定项目的相似度;短文本比对模块:先取两个项目相同字段名标签下Shingle特征词集合A和B的交集,然后除以两个集合A和B的并集,计算出jaccard系数J=
,将J与0.3比较,若J大于0.3则判断两项目该字段内容相似;E,查重判定模块:根据项目各个字段的相似度值和比对数据库中项目权重评价表与之对应的项目各个字段的权重,使用模糊综合评价法对两个项目进行相似度比较,当两个项目的相似度大于0.7,则判断两个项目相似;F,报告模块:将两个项目的查重判定结果生成报告页返回给用户,当两个项目相似,则报告页面将逐条显示两个项目的相似内容;G,项目相似度评价表:记录在比对数据库中,记录项目各比对字段的相似度值和最终查重结果,当两个项目相似,记为1,否则记为0。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于胡新炜,未经胡新炜许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610000825.2/,转载请声明来源钻瓜专利网。
- 上一篇:阀门电动装置位置指示窗
- 下一篇:一种数据库层次化HTML报表导出方法及系统
- 同类专利
- 一种基于新型模板的远动挑点系统-201610331483.2
- 付豪;张晓瑞;董怀普;闵彦荣;杨小凡;骆兆军 - 南京国电南自电网自动化有限公司
- 2016-05-18 - 2019-09-10 - G06F16/832
- 本发明公开了一种基于新型模板的远动挑点系统,包括通过通信协议正常通信的数据网关机和计算机,数据网关机内安装有数据库管理软件,计算机内安装有网关机配置工具,网关机配置工具用以新建和设置挑点模板,并根据挑点模板进行远动点表的挑点工作。本发明通过安装在计算机上的网关机配置工具,采用新式模板挑点方式,与传统的挑点方式相比,能更加快速、高效、清晰的进行远动点表的挑点工作。
- 一种科技项目查重对比的方法-201610000825.2
- 胡新炜;史丽男 - 胡新炜
- 2016-01-04 - 2019-03-05 - G06F16/832
- 本发明一种科技项目查重对比的方法涉及信息内容相似度的查重的方法,尤其是涉及利用科技立项过程中确定申请的文件材料是否重复的查重的方法。具体的技术方案为:一种科技项目查重对比的方法,其特殊之处在于,是通过下述步骤实现的:将待比对的项目和已知的项目输入数据格式化模块,并依次通过分词处理模块、查重比对模块、查重判定模块、报告模块,最终获得项目相似度评价表。本发明的技术方案具有在检索查重领域快速、准确的特点。
- 专利分类