[发明专利]中文数字反抄袭侦测比对系统与方法无效
申请号: | 201210258516.7 | 申请日: | 2012-07-24 |
公开(公告)号: | CN103049467A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 杨纯青 | 申请(专利权)人: | 杨纯青 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 中国商标专利事务所有限公司 11234 | 代理人: | 宋义兴 |
地址: | 中国台湾高雄市*** | 国省代码: | 中国台湾;71 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 中文 数字 抄袭 侦测 系统 方法 | ||
技术领域
本发明是关于中文数字反抄袭侦测比对系统与方法,尤指一种利用搜索引擎的功能,将要比对的文章以拆解字句算法拆解分句后分别拿去搜寻,当搜寻结果的总结吻合搜寻的句子时,就把搜寻结果的网页载下来进行全文比对,即可快速判断是否有从此网站抄袭的中文数字反抄袭侦测比对系统与方法。
背景技术
近年来网络发达,也改变了学生写作业的习惯,从过去鼓励学生多查阅网络数据,到现在必须防堵学生使用网络数据,而网络使用也确实造成了大量抄袭的现象,互联网营造出高度抄袭的环境,在环境与时间的压力下,容易产生抄袭行为;其次社会弥漫“走快捷方式”取巧的心理,学生只关心写作业的效率而不重视作业质量,学术界也重视论文的出版量,而较少关注内容质量,社会弥漫取巧的心态;再者,抄袭的偏差行为已成常态,代写服务更让整个学术环境恶化,抄袭不诚实行为已恶化为学术欺骗的严重犯行。
有鉴于学生抄袭行为日益严重,尤其是抄袭网络数据或将网络数据二次加工,重新拼贴与排列组合成大杂烩文章的行为,国外的营利企业发明了数字抄袭侦测软件进行防范,经过长时间的运作与测试,确实能降低抄袭行为的发生率,抑制学生想要侥幸投机的行为,只是多数侦测系统的测验报告与相关文献几乎是以英语系国家为主,各种累积的知识仅止于英文环境,无法移植到中文语系,由于中文语体不管是书写结构、字词组合、文字断句(segmentation)、标点符号的使用等,都与英文环境有极大差异,因此中文化界面的数字抄袭比对系统与方法仍需要开发,以适合华语教育界使用。
已知的中文抄袭文章比对系统与方法,如中国台湾第I262402号题为《特征撷取、数据解密方法以及抄袭文章搜寻的系统与方法》的发明专利公告,其是对已植入水印的文章10进行特征撷取,以取得文件特征20,根据所取得的词汇输入搜索引擎30,并且比对索引数据库40以搜寻因特网上可能抄袭的文章50;接着将搜寻所得的文章50与原文比对,根据比对结果取得的句子执行水印解析;最后,将所取得的水印信息60与原来的水印比对,然后根据比对结果判断该搜寻所得的文章是否为抄袭文章,若比对结果大于一临界值,则表示其为抄袭文章70。
而该已知发明的特征撷取方法是将自植入水印的文章取得的句子、词汇予以断词及词性标注,然后根据文章中水印植入的词与句型,利用同义词库与同义句型库,针对文章的文字产生其语意层面的特征,即将内容中藏有水印的句子与词汇取出。然后以词汇以及词性作为查询定义的依据,在同义词数据库中进行搜寻,以取得可作为该文章的特征的词汇。然后以该词汇为关键词,利用搜索引擎进行网络搜寻,以获得相关可能的抄袭文章。
然而,该种已知的抄袭文章搜寻系统与方法由于必需经过将文章植入水印、将植入水印的文章进行特征撷取、根据所取得的词汇输入搜索引擎30、比对索引数据库40以搜寻因特网上可能抄袭的文章50、将搜寻所得的文章50与原文比对、根据比对结果取得的句子执行水印解析、将所取得的水印信息60与原来的水印比对及根据比对结果判断该搜寻所得的文章是否为抄袭文章等繁杂的步骤,虽然可比对出改变同义词与同义句的部分,但对于比对一般论文或长篇文章而言,如此大量复杂的步骤对计算机服务器会造成很大的负荷,进而影响文章比对的速度,而降低使用的效率。
其次,因为比对系统所搜寻到相同的部分可能是“参考书目”或合乎规范围的“直接引用”,故再精确的比对系统也很难直接判断一篇文章是否为抄袭文章;最后,“抄袭”一词仍未有客观明确的界定,雷同字数多寡也成为判断抄袭与否的重要参考因素,而水印范围的设定,并无法让使用者根据自己主观界定或客观学术环境作弹性调整。
因此,为更有效率地判断一篇文章是否为抄袭文章,首先必需加快文章比对的速度,并利用抄袭比对系统的比对结果做为辅助判断是否为抄袭文章的依据,最后再以人工检视方法做进一步查验即可有效的判断一文章是否为抄袭文章;其次,使用者可以透过本身所处的学术环境或需求对于“抄袭”字数的定义作弹性调整,也符合用户的需求。所以,如何加快文章比对的速度,以及让审查者可清楚且快速得知比对文章中涉嫌抄袭部分与搜寻部分的差异,与对于抄袭字数定义作为弹性调整,则为该已知抄袭文章搜寻系统所欠缺考虑的部分。
为此,本发明者基于多年相关系统开发与方法研究的经验,特针对目前中文数字反抄袭侦测比对系统与方法加以研究,从而得出本发明专利申请。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杨纯青,未经杨纯青许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210258516.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高强度环保衬布
- 下一篇:触摸屏的侦测装置与方法