[发明专利]一种论文查重的方法在审
| 申请号: | 201410319183.3 | 申请日: | 2014-07-07 |
| 公开(公告)号: | CN104050299A | 公开(公告)日: | 2014-09-17 |
| 发明(设计)人: | 严敏;林文荟;杨华;刘志程 | 申请(专利权)人: | 江苏金智教育信息技术有限公司 |
| 主分类号: | G06F17/30 | 分类号: | G06F17/30 |
| 代理公司: | 江苏银创律师事务所 32242 | 代理人: | 孙计良 |
| 地址: | 211100 江苏省南*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 论文 方法 | ||
技术领域
本发明涉及论文查重的技术。
背景技术
目前论文查重方法主要有三种:基于字符串匹配的方法,基于文档指纹的方法和基于语义知识的方法。
基于字符串匹配的方法是一种基于数理统计的方法。它先通过字符串匹配算法,找出待检测文档与数据库中的文档相匹配的字符串数目,随后利用相似性计算公式求出结果。这种方法对字符串的选取要求很高,同时字符串匹配算法的时间复杂度较高,需要较大的资源开销和较长的计算时间。
基于文档指纹的方法通过将代表文档语义的文本作为“指纹”,通过比较“指纹”从而达到判别抄袭的目的。在选取“指纹”的过程中可能受到文章的层次结构的影响而造成漏判。
基于语义知识的方法是通过分析比较待检测文章与数据库文章的自然语义相似程度从而达到判别抄袭的目的。该方法依赖于自然语言相似性的计算,由于中文语言的复杂性,基于语义知识的判断结果正确性很难得到保证。
针对目前的查重技术,如果论文作者在同一段落,尽可能多的选择多篇文献,从每篇参考文献中摘取部分子句到同一段落,不会被论文查重系统快速检测出来。
发明内容
本发明所要解决的问题:如果论文作者选择多篇文献,从每篇参考文献中摘取部分子句,则不会被目前的论文查重系统快速检测出来。
为解决上述问题,本发明采用的方案如下:
一种论文查重的方法,包括以下步骤:
S1:对文本库中的原文进行分句,并计算原文每个分句的指纹;
S2:对待查文章进行分句,并计算待查文章每个分句的指纹;
S3:通过待查文章各个分句的指纹与原文各个分句的指纹的对比,确定原文分句指纹与待查文章分句指纹相同的分句和分句的位置,得到重复分句和重复分句在原文中的位置;
S4:根据重复分句在原文中的位置,判断重复分句在原文中的间隔是否小于M;假如重复分句在原文中的间隔小于M,则待查文章与原文的内容有重复;其中M为预先设定的常量。
进一步,根据本发明的论文查重的方法,还包括构建分句指纹库的步骤;所述构建分句指纹库的步骤为对文本库中各个原文进行分句,并计算各个原文每个分句的指纹得到分句指纹库;所述的分句指纹库保存了文本库中各个原文的分句的指纹和分句的位置对应关系表。
本发明的技术效果如下:
1. 本发明通过指纹对比,计算开销低,判重速率快,响应速度快。
2. 精确到分句的判别方法,可以更加准确地对抄袭的现象进行判别。
3. 可以精确还原被抄袭的段落及子句内容,为论文查重提供有力证据。
4. 可以从多个原始论文中多处摘抄中找出摘抄的原始论文。
附图说明
图1本发明论文查重方法的流程图。
具体实施方式
下面结合附图对本发明做进一步详细说明。
本发明通过对比待查文章与文本库中文章的分句指纹对比获得重复分句和重复分句在原文中的位置,然后判断重复分句在原文中的间隔是否小于M,假如重复分句在原文中的间隔小于M,则待查文章在文本库中内容有重复。如图1所示,包括步骤:
S1:计算文本库中原文各个分句的指纹;
S2:计算待查文章的各个分句的指纹;
S3:找出重复分句和重复分句在原文中的位置;
S4:判断重复分句在原文中的间隔是否小于M。
这里的原文是指文本库中的文献文本。步骤S1和S2中计算指纹的过程实际上包含了两个步骤:对文本进行分句的步骤和计算分句指纹的步骤。对文本进行分句的步骤是指将文本根据分割符进行分割成多个句子的过程。分割符可以是句号、感叹号、问号、分号、分段符等等。文本分割后得到的句子称为分句。文本所有的分句按顺序组合后成文原始文本。计算分句指纹的步骤是采用哈希函数对分句进行运算的过程。这里的哈希函数是指单向散列函数,比如MD5、SHA-1、SHA-2、SHA-3等等。通过采用哈希函数对分句进行运算后得到分句的哈希值,该哈希值即可作为该分句的指纹。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏金智教育信息技术有限公司,未经江苏金智教育信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410319183.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种钻曲轴平衡臂膀孔夹具
- 下一篇:电机机壳钻孔装置





