[发明专利]基于哈希值的文本处理系统在审
申请号: | 201710873775.3 | 申请日: | 2017-09-25 |
公开(公告)号: | CN107704543A | 公开(公告)日: | 2018-02-16 |
发明(设计)人: | 曾传德 | 申请(专利权)人: | 曾传德 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610000 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 哈希值 文本 处理 系统 | ||
技术领域
本发明涉及计算机领域,具体涉及基于哈希值的文本处理系统。
背景技术
学术不端是指学术界的一些弄虚作假、行为不良或失范的风气,或指某些人在学术方面剽窃他人研究成果,败坏学术风气,阻碍学术进步,违背科学精神和道德,抛弃科学实验数据的真实诚信原则,给科学和教育事业带来严重的负面影响,极大损害学术形象的丑恶现象。
目前为了预防学术不端的行为出现,需要对文献进行文献查重,然而现有的文献查重手段,往往只能对单句进行查重,在对整个文本进行查重的时候,通过单句检查会大大的增大运算量,并且由于没有将文本当作一个整体看待,会降低查重的准确度。
发明内容
本发明所要解决的技术问题是现有的查重技术往往只能对单句进行查重,在对整个文本进行查重的时候,通过单句检查会大大的增大运算量,并且由于没有将文本当作一个整体看待,会降低查重的准确度,目的在于提供基于哈希值的文本处理系统,解决上述问题。
本发明通过下述技术方案实现:
基于哈希值的文本处理系统,包括:用于提取文本的特征量和特征量对应的权重值的提取模块;用于将文本的特征量根据权重值构成特征量向量的生成模块;用于对所有的文本特征量提取哈希值,并对文本特征量的哈希值进行叠加形成文本的哈希值的哈希模块;对比两个文本,如果两个文本的哈希值相同,则认为两个文本相似的对比模块。
现有技术中,文献查重手段往往只能对单句进行查重,在对整个文本进行查重的时候,通过单句检查会大大的增大运算量,并且由于没有将文本当作一个整体看待,会降低查重的准确度。本发明应用时,先提取文本的特征量和特征量对应的权重值,特征量可以是关键词,也可以是短句,特征量可以采用词或句出现的频率,然后将文本的特征量根据权重值构成特征量向量,再对所有的文本特征量提取哈希值,并对文本特征量的哈希值进行叠加形成文本的哈希值,如果两个文本的哈希值相同,则认为两个文本相似,由于将文本当成整体进行看待,并且淡化了单句在整体文本中的左右,即可以节省运算量,也可以提高查重的准确度。
进一步的,所述哈希模块还用于设置运算矩阵,所述运算矩阵的行数与特征量向量的维度相同,所述运算矩阵的列数与文本特征量的哈希值位数相同,运算矩阵所有的元素初始值为0;所述哈希模块还用于根据文本特征量的哈希值和权重值得出运算矩阵的每一个元素值,每一个元素值一一对应文本特征量的哈希值的位;所述哈希模块还用于将运算矩阵同一列的元素相加得到运算向量;所述哈希模块还用于根据运算向量得到文本的哈希值。
本发明应用时,根据文本特征量的哈希值和权重值得出运算矩阵的每一个元素值,通过运算矩阵的方式进行运算,比起将文本化为单句的评估,可以大幅的节省运算量,一般一篇文字在五万字的文本,本发明可以节省运算量90%以上。
进一步的,所述哈希模块还用于在每一个文本特征量的哈希值的任意位为1时,将与该文本特征量的哈希值的位对应的运算矩阵元素赋值为该文本特征量的权重值;所述哈希模块还用于在每一个文本特征量的哈希值的任意位为0时,将与该文本特征量的哈希值的位对应的运算矩阵元素赋值为该文本特征量的权重值的负数。
本发明应用时,通过上述的步骤,可以稳定的得出运算矩阵的每一个元素值,为下一步的运算通过良好的数据基础。
进一步的,所述哈希模块还用于如果运算向量的任意维度为正,则将该维度值替换为1;所述哈希模块还用于如果运算向量的任意维度为负,则将该维度值替换为0;所述哈希模块还用于将运算向量所有的维度排列形成文本的哈希值。
本发明应用时,对运算向量进行逆向生成哈希值,从而完成文本的哈希值,本发明通过以哈希值和运算矩阵的方式完成整个运算,节省了运算成本,提高了查重的精度。
进一步的,哈希值为二进制数。
本发明与现有技术相比,具有如下的优点和有益效果:
本发明基于哈希值的文本处理系统,由于将文本当成整体进行看待,并且淡化了单句在整体文本中的左右,即可以节省运算量,也可以提高查重的准确度。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明系统结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曾传德,未经曾传德许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710873775.3/2.html,转载请声明来源钻瓜专利网。