[发明专利]一种跨语言的电子文本剽窃检测系统及其检测方法有效
申请号: | 201410062327.1 | 申请日: | 2014-02-24 |
公开(公告)号: | CN103823862B | 公开(公告)日: | 2017-02-15 |
发明(设计)人: | 鲍军鹏;张昭 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 西安通大专利代理有限责任公司61200 | 代理人: | 陆万寿 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种跨语言的电子文本剽窃检测系统及其检测方法,包括以下步骤分别对待测电子文本和参考电子文本进行段落划分,得到待测段落集和参考段落集;根据跨语言本体,查找待测段落集和参考段落集中词语对应的概念,并根据所查找到的概念,将待测段落集和参考段落集表示为待测多重概念序列和参考多重概念序列;据待测多重概念序列,检索得到与待测多重概念序列共同概念最多的参考多重概念序列;检测多重概念序列,生成剽窃证据列表;对剽窃证据列表进行合并、整理,生成检测结果;输出和显示检测结果。本发明中所建立得多重概念序列,能够将待测电子文本和参考电子文本进行充分的检索,进而提高了检测的准确率。 | ||
搜索关键词: | 一种 语言 电子 文本 剽窃 检测 系统 及其 方法 | ||
【主权项】:
一种跨语言的电子文本剽窃检测方法,其特征在于,包括以下步骤:步骤一,分别对待测电子文本和参考电子文本进行段落划分,得到待测段落集和参考段落集;步骤二,根据跨语言本体,查找待测段落集和参考段落集中词语对应的概念,并根据所查找到的概念,将待测段落集和参考段落集表示为待测多重概念序列和参考多重概念序列;步骤三,根据待测多重概念序列,检索得到与待测多重概念序列共同概念最多的参考多重概念序列;步骤四,检测所查找到的与待测多重概念序列共同概念最多的参考多重概念序列,生成剽窃证据列表;其中,该步骤中,检测所查找到的与待测多重概念序列共同概念最多的参考多重概念序列具体包括以下步骤:1)创建候选剽窃证据列表和剽窃证据列表;2)对共同概念最多的参考多重概念序列建立位置索引,所述位置索引按照哈希表结构进行组织,以使得通过位置索引查找待测多重概念序列中的概念在参考多重概念序列中出现的位置;3)预设当前间隙变量G并置0;4)取出待测多重概念序列的位置上的概念数组,用概念数组中所有概念在位置索引中查找,得到一个位置集合;5)如果位置集合为空,将间隙变量G加1,转步骤8),否则将间隙变量G置0;6)将待测多重概念序列的概念和位置集合中的位置组成位置对,对候选剽窃证据列表中的每一条证据,通过位置对更新证据;7)当参考多重概念序列中的概念和位置集合中的位置组成的位置对和候选剽窃证据列表中的所有证据距离大于第一预设位置阈值,则利用该位置对创建新证据,将新证据加入到候选剽窃证据列表中;8)如果待测多重概念序列中的位置到达句子末尾或间隙变量G大于预设阈值,则执行候选剽窃证据列表检查操作,将满足密度要求的剽窃证据加入到剽窃证据列表中,然后将间隙变量G置0并清空候选剽窃证据列表;9)重复上述步骤4)~步骤8),直到待测多重概念序列中的所有位置都处理完;10)对剽窃证据列表中的证据进行合并,然后去掉长度小于第二预设位置阈值的证据;步骤五,对剽窃证据列表进行合并、整理,生成检测结果;步骤六,输出和显示检测结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410062327.1/,转载请声明来源钻瓜专利网。