[发明专利]一种标准文本的查重方法及系统在审
申请号: | 202010164577.1 | 申请日: | 2020-03-11 |
公开(公告)号: | CN111400446A | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 汤楚天;朱培武;董大展;齐文心;洪诗婷 | 申请(专利权)人: | 中国计量大学;杭州合秩标准技术服务有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 赵芳;俞昊文 |
地址: | 310081 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标准 文本 方法 系统 | ||
本发明公开了一种标准文本查重方法,根据上传的标准文本,从中提取有关信息;按照标准文本的要素格式将提取的有关信息划分为不同要素板块的待查重数据;对各要素板块的待查重数据进行语义分析,确定该要素板块待查重数据的关键句或关键字词;将待查重数据进行文本相似度的计算,获取各个标准文本要素板块以及调度出的各相应标准文本的相似度;将异同数量值之比作为各要素板块中每个句子与对比标准文本中每个句子的相似度,并取其中最高值,将各个要素板块的总相似度进行加权平均,得到上传标准文本内容以及对比的标准文本内容的文本相似度。本发明标准文本查询系统查询准确度高,且流程易操作,能极大的提高对标准文本进行查重比对工作的效率。
技术领域
本发明涉及文本文献查重领域,尤其涉及一种标准文本的查重方法及系统。
背景技术
当今世界,标准化水平已成为各国各地区核心竞争力的基本要素。随着新标准化法的作用日益显现、全国各标准化试点建设发展,国家、地方、企业、行业、团体的各类标准的编写制定任务日益繁重,而标准制定涉及知识产权保护的复杂性,故在具体标准编写完毕之后、正式发布之前,对标准文本进行查重比对工作十分重要。而目前针对这一块工作的查重方法及系统建设十分匮乏,亟需填补。
发明内容
本发明的目的是针对现有技术的缺陷,提供了一种标准文本的查重方法及系统。
为了实现以上目的,本发明采用以下技术方案:
一种标准文本查重方法,所述方法包括:
根据上传的标准文本,从中提取有关信息;
对提取的有关信息进行预处理,即按照标准文本的要素格式将提取的有关信息划分为不同要素板块的待查重数据;
对各要素板块的待查重数据进行语义分析,确定该要素板块待查重数据的关键句或关键字词;
根据关键句或关键字词调度标准文本资料库中的相关标准文本,将待查重数据进行文本相似度的计算,通过计算获取各个标准文本要素板块以及调度出的各相应标准文本的相似度;具体步骤如下所述:
所上传的标准文本在分解成各个不同要素板块之后,以各个要素板块为单位,将每个要素板块单位里的所有句子与标准文本资料库里相关标准里的所有句子一一比对,得出每个句子中相异和相同词语的数量值;
将异同数量值之比作为各要素板块中每个句子与对比标准文本中每个句子的相似度,并取其中最高值,作为该要素板块与对比标准文本的总相似度;
将各个要素板块的总相似度进行加权平均,最终得到上传标准文本内容以及对比的标准文本内容的文本相似度。
进一步的,根据上传标准文本各要素板块内的关键字词或关键句,调度标准文本资料库内的相关标准文本。
进一步的,根据上传标准文本各要素板块内的关键字词或关键句,筛选标准文本资料库内,含有相同或相似标准名称或标准文本内容中相同或相似各级标题的标准。
进一步的,从上传标准文本信息中提取有关信息为对比的样本,具体包括:从上传的标准文本信息中任取一条信息作为对比样本。
进一步的,对上传的标准文本进行要素板块划分,具体包括:按照标准的必备要素和可选要素对上传的标准文本进行要素板块划分。
进一步的,对各要素板块的待查重数据进行语义分析,确定该要素板块待查重数据的关键句或关键字词,具体包括:
通过标点符号的分隔作用将上传的标准文本各要素板块的内容分解为多个句子,使用分词器将每个句子分解为符合逻辑的多个词语,并且根据这些词语在语句中出现的主次位置结构、出现频次判定关键字词。
进一步的,对调度出的标准文本进行语义分析,确定该对比标准文本的关键句或关键字词,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国计量大学;杭州合秩标准技术服务有限公司,未经中国计量大学;杭州合秩标准技术服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010164577.1/2.html,转载请声明来源钻瓜专利网。