[发明专利]一种基于同义词分析的科技项目申报书的相似度检测方法有效

专利信息
申请号: 201710202607.1 申请日: 2017-03-30
公开(公告)号: CN107122340B 公开(公告)日: 2018-11-06
发明(设计)人: 严伟;吕跃华;沈凯;杨威;杨朔 申请(专利权)人: 浙江省科技信息研究院
主分类号: G06F17/22 分类号: G06F17/22;G06F17/27
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 杜军
地址: 310006 *** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于同义词分析的科技项目申报书的相似度检测方法,本发明结合了同义词分析和向量模型来计算科技项目申报书之间的相似性通过同义词分析技术对词典进行同义词分析,建立起同义词词典;针对科技项目申报书格式的特殊性,对科技项目申报书进行文本分块处理。再通过分词算法对文本块进行分析处理。在申报科技项目申报书项目的环节,通过自然语言处理、建立同义词林、分词等技术对科技项目申报书的全文、段落、句子进行了分词处理,对分析结果进行处理建立起特征权值向量,通过同义词分析和TF‑IDF模型对文本进行分析,建立特征权值向量空间,解决了向量空间模型无法处理语义的缺陷,提高了中文文本相似性度检测的准确性。
搜索关键词: 一种 基于 同义词 分析 科技 项目 申报 相似 检测 方法
【主权项】:
1.一种基于同义词分析的科技项目申报书的相似度检测方法,其特征在于包括如下步骤:步骤一:输入中文基础词典和中文停用词典;步骤二:构建一个BP神经网络模型,将中文基础词典作为神经网络模型的输入层进行训练分析,挖掘出其中的同义词,将属于某个词的所有同义词放置在同一行,从而组成同义词词林T;以中文基础词典为基础建立起字典树; 该字典树是一种树形结构,其根节点为空,每个节点对应一个字,通过从根节点出发向下依次遍历各个节点直至叶子节点或者标注有结束符号的中间节点均可组成为中文基础词典中的某个词;对中文基础词典进行同义词分析;其中同义词分析方法,具体步骤如下:步骤1:遍历中文基础词典,任取其中一个词条wk;步骤2:从字典树根结点出发向下遍历搜索得到要查找的词条wk的第一个字对应的节点;然后继续在以该节点为根的子树中搜索词条wk的下一个字对应的节点;重复以上步骤,直至找到词条wk在字典树中的完整遍历路径,为该路径的最后一个节点分配一个唯一的同义词编号;步骤3:在同义词林T中找到该词条wk的所有同义词,按步骤2所示方法在字典树中找到所有这些同义词的完整遍历路径,将这些完整遍历路径的最后一个节点标注为与词条wk的同义词编号相同的同义词编号;步骤4:重复步骤1、步骤2、步骤3,直至中文基础词典的所有词条都在字典树中找到完整遍历路径并且最后一个节点都被分配了同义词编号;步骤三:提取出某篇科技项目申报书Di中的文本内容并且剔除无意义的格式和符号;然后根据模板将科技项目申报书按照文本块类型划分为不同的文本块,根据各个文本块的重要性为每个文本块赋予不同权值;对科技项目申报书Di进行文本块划分处理后得到的文本块集,表示如下:其中,表示科技项目申报书Di的文本块数量; 按此方法对所有科技项目申报书进行预处理;步骤四:根据字典树对每篇科技项目申报书Di的文本块进行分词处理,去除包含在停用词典中的停用词条,最后得到的每个词条都用其同义词编号表示;步骤五:通过公式:计算每篇科技项目申报书Di中每个词条wk的IDF值;其中:|D|表示所有科技项目申报书数量,|{t:wk∈Dt}|表示包含词条wk的科技项目申报书的数量;如果IDF值小于某个预先设定的阈值,则视wk为新的停用词条,将其加入停用词词典组成新的停用词词典,并在由步骤四获得的分词结果去除新的停用词条;步骤六:为每篇科技项目申报书Di的每一个文本块构建特征权值向量其中m表示特征权值向量的元素数量,特征权值向量的每个元素为词条wk的词频与其IDF值的乘积,即:其中,Frequency(wk)为wk中出现的次数;步骤七:任取两篇科技项目申报书Di1,Di2,按下式计算属于同一个文本块类型j的两个文本块之间的相似度,即:其中为文本块对应的词条wk的特征权值向量元素;该公式中的m表示特征权值向量的元素数量;然后对两篇科技项目申报书之间的所有属于同一文本块类型的两个文本块之间的相似度进行加权处理,得到两篇科技项目申报书之间的整体相似度,公式如下:其中Weight(Pj)表示文本块Pj的权值;该公式中的n表示文本块的总数量;步骤八:对于任一科技项目申报书Di,选择与其整体相似度最大的科技项目申报书,作为科技项目申报书Di的查重结果输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江省科技信息研究院,未经浙江省科技信息研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710202607.1/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top