[发明专利]一种面向电力行业的项目相似性对比方法有效
申请号: | 201810521004.2 | 申请日: | 2018-05-28 |
公开(公告)号: | CN108846031B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 段飞虎;吕强;冯自强;张宏伟;邓春宇;季知祥;史梦洁;陈立斌;王冠群;徐翀;梁芙翠;王頔;魏冠元;付蓉;马铁群;朱承志;孙黎滢;谷记亭 | 申请(专利权)人: | 同方知网数字出版技术股份有限公司;中国电力科学研究院有限公司;国网能源研究院有限公司;国网浙江省电力有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/289;G06F40/30 |
代理公司: | 北京天奇智新知识产权代理有限公司 11340 | 代理人: | 陈新胜 |
地址: | 100084 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 电力行业 项目 相似性 对比 方法 | ||
1.一种面向电力行业的项目相似性对比方法,其特征在于,所述方法包括:
步骤10将文本进行碎片化处理,统一格式并保存在数据库中;
步骤20通过KBase数据库检索出与比对项目最相似的几篇文本;
步骤30将相似文本分别与比对文本进行比较;
步骤40将所有相似文本的比对结果进行分析,并将重复内容标记后按照原文顺序输出;
步骤50对对比语句的相似度进行优化,该优化采用并行计算使用多个线程同时计算;
所述步骤30具体包括:
步骤301将两篇文本通过标点符号拆分成句子,设相似文本和对比文本为:
D={d1,d2,d3,...,dn},M={m1,m2,m3,...,mk}
其中D和M为原始文本的语句集合,d和m为被拆分出的语句,n和k表示语句的数量;
步骤302对D和M中的语句进行分词,并进行相似比对;语句间的相似度计算公式为:
其中,LCS(dn,mk)为语句dn与mk中相同和相近词语的字数,Num记录了语句dn与mk的总字数,计算相同或相近字数在各语句中所占的比值并取其中的较小值作为当前两个语句的相似度;
步骤303设定阈值similar,并将设定的阈值similar与步骤302中所求的相似度进行比对;
步骤304将比对的结果和在原文本中的语境进行保存并标记输出;
所述步骤50具体包括:由于构建比对矩阵时需要计算两两比对中所有语句的相似度,即需要经过n*k次计算,而且随着比对篇幅的增加会加大运算时间,因此采用并行计算方法使用多个线程同时计算,通过限制单次比对语句数来达到限制线程数的效果,设单次比对语句数量为t,则开启线程数v的计算公式为:
其中,Ceiling函数是取整函数同时只要存在小数则加1。
2.如权利要求1所述的面向电力行业的项目相似性对比方法,其特征在于,所述步骤40具体包括:取出所有相似文章的对比结果,如果有重复语句相同则合并,并将结果集中的重复语句进行标红形成最终结果。
3.如权利要求1所述的面向电力行业的项目相似性对比方法,其特征在于,所述步骤302中:将两句话的每个词语进行匹配,根据电力主题词库和近义词库进行语义分析,如果存在相同和语义相近的词语则记录字数,并将所有相同或相近的词语进行累加。
4.如权利要求1所述的面向电力行业的项目相似性对比方法,其特征在于,所述步骤303中:相似度大于阈值similar的语句就是所要查找的相似语句,其中阈值similar可根据实际情况调整。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同方知网数字出版技术股份有限公司;中国电力科学研究院有限公司;国网能源研究院有限公司;国网浙江省电力有限公司,未经同方知网数字出版技术股份有限公司;中国电力科学研究院有限公司;国网能源研究院有限公司;国网浙江省电力有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810521004.2/1.html,转载请声明来源钻瓜专利网。