[发明专利]一种基于同义词分析的科技项目申报书的相似度检测方法有效
申请号: | 201710202607.1 | 申请日: | 2017-03-30 |
公开(公告)号: | CN107122340B | 公开(公告)日: | 2018-11-06 |
发明(设计)人: | 严伟;吕跃华;沈凯;杨威;杨朔 | 申请(专利权)人: | 浙江省科技信息研究院 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杜军 |
地址: | 310006 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 同义词 分析 科技 项目 申报 相似 检测 方法 | ||
本发明公开了一种基于同义词分析的科技项目申报书的相似度检测方法,本发明结合了同义词分析和向量模型来计算科技项目申报书之间的相似性通过同义词分析技术对词典进行同义词分析,建立起同义词词典;针对科技项目申报书格式的特殊性,对科技项目申报书进行文本分块处理。再通过分词算法对文本块进行分析处理。在申报科技项目申报书项目的环节,通过自然语言处理、建立同义词林、分词等技术对科技项目申报书的全文、段落、句子进行了分词处理,对分析结果进行处理建立起特征权值向量,通过同义词分析和TF‑IDF模型对文本进行分析,建立特征权值向量空间,解决了向量空间模型无法处理语义的缺陷,提高了中文文本相似性度检测的准确性。
技术领域
本发明属于自然语言处理领域,主要是用于科技项目申报书的相似度检测。
背景技术
近年来,随着中央对于科研项目投入了大量的经费和财力支持,国内的科技事业也在蓬勃发展,与此同时产生了科技项目申报书的抄袭和重复申报等问题,严重阻碍了科技事业的健康发展。本发明针对科技项目申报书的抄袭和重复申报现象发明了一种中文文本相似度的检测方法,能够帮助项目申报中心有效甄别出存在严重抄袭现象的科技项目申报书。
文本相似性的检测在上世纪70年代首次被提出,相关学者首先提出了基于属性计数的计算方法来计算程序复制的相似度。随着自然语言领域和人工智能领域的领域不断发展,有学者根据文本中字符串的匹配方式设计了一种自然语言的查重算法;又有学者根据字符串后缀树查找字符串最大子串的思想提出了新的查重算法。相关学者提出了一种新的分析模型:向量空间模型。这种模型被提出以后就成功地应用到了相关的文本相似性分析系统当中。广义的空间向量模型并没有考虑到语义上的关系,这是该模型的一大缺陷。此后相关学者又提出字符间的编辑距离的文本相似度计算方法来对文本进行相似度的检测。该算法在处理英文上的文本相似性具有较好的效果,但是在处理中文文本相似性上却无法得到尽如人意的效果。
发明内容
本发明针对目前的研究现状,针对科技项目申报书的抄袭和重复情况,提出了一种基于同义词分析的科技项目申报书相似度检测方法。本发明结合了同义词分析和向量模型来计算科技项目申报书之间的相似性通过同义词分析技术对词典进行同义词分析,建立起同义词词典;针对科技项目申报书格式的特殊性,对科技项目申报书进行文本分块处理。再通过分词算法对文本块进行分析处理。在申报科技项目申报书项目的环节,通过自然语言处理、建立同义词林、分词等技术对科技项目申报书的全文、段落、句子进行了分词处理,对分析结果进行处理建立起特征权值向量,通过同义词分析和TF-IDF模型对文本进行分析,建立特征权值向量空间,解决了向量空间模型无法处理语义的缺陷,提高了中文文本相似性度检测的准确性。
本发明方法的具体步骤是:
步骤一:输入中文基础词典和中文停用词典;其中中文基础词典涵盖了常用中文词条以及专业性词条;停用词典包含了对识别文本内容意义不大,但是出现频率很高的停用词条,如“我们”、“的”、“了”等。
步骤二:构建一个BP神经网络模型,将中文基础词典作为神经网络模型的输入层进行训练分析,挖掘出其中的同义词,将属于某个词的所有同义词放置在同一行,从而组成同义词词林T;以中文基础词典为基础建立起字典树。该字典树是一种树形结构,其根节点为空,每个节点对应一个字,通过从根节点出发向下依次遍历各个节点直至叶子节点或者标注有结束符号的中间节点均可组成为中文基础词典中的某个词;对中文基础词典进行同义词分析;
其中同义词分析方法,具体步骤如下:
步骤1:遍历中文基础词典,任取其中一个词条wk。
步骤2:从字典树根结点出发向下遍历搜索得到要查找的词条wk的第一个字对应的节点;然后继续在以该节点为根的子树中搜索词条wk的下一个字对应的节点;重复以上步骤,直至找到词条wk在字典树中的完整遍历路径,为该路径的最后一个节点分配一个唯一的同义词编号。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江省科技信息研究院,未经浙江省科技信息研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710202607.1/2.html,转载请声明来源钻瓜专利网。