[发明专利]一种基于思想政治词语查重处理方法和装置在审
申请号: | 202110664367.3 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113326688A | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 王萍;金耀武 | 申请(专利权)人: | 黑龙江八一农垦大学 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/216 |
代理公司: | 大庆禹奥专利事务所 23208 | 代理人: | 朱林;杨立芹 |
地址: | 163000 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 思想政治 词语 处理 方法 装置 | ||
1.一种基于思想政治词语查重处理方法,其特征在于,包括:
获取第一文章中思想政治词语在所述第一文章中的第一位置信息,其中,所述思想政治词语为预先配置的;
获取第二文章中的思想政治词语在所述第二文章的位置信息;
判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比;
在所述占比未超过的第一阈值的情况下,确定所述第一文章和所述第二文章为不相同的文章。
2.根据权利要求1所述的方法,其特征在于,还包括:
在所述第一文章和所述第二文章中存现的相同的思想政治词语的数量小于第二阈值的情况下,确认所述第一文章和所述第二文章为不相同的文章。
3.根据权利要求2所述的方法,其特征在于,所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语的数量大于等于所述第二阈值的情况下,所述方法还包括:
判断所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语是否小于等于第三阈值,其中,所述第三阈值大于所述第二阈值;
在小于等于所述第三阈值的情况下,判断所述第一文章去掉相同的思想政治词语后剩余的字数与所述第二文章去掉所述相同的思想政治词语有剩余的字数的差值是否大于所述第四阈值;
在大于所述第四阈值的情况下,确定所述第一文章和所述第二文章为不同的文章。
4.根据权利要求3所述的方法,其特征在于,判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比包括:
在所述第一文章中的思想政治词语小于等于所述第三阈值并且所述第一文章和所述第二文章剩余的字数的产值小于等于所述第四阈值的情况下,判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。
5.根据权利要求3所述的方法,其特征在于,判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比包括:
在所述第一文章中的思想政治词语大于所述第三阈值的情况下,判断判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比。
6.一种基于思想政治词语查重处理装置,其特征在于,包括:
第一获取模块,用于获取第一文章中思想政治词语在所述第一文章中的第一位置信息,其中,所述思想政治词语为预先配置的;
第二获取模块,用于获取第二文章中的思想政治词语在所述第二文章的位置信息;
第一判断模块,用于判断相同的思想政治词语在所述第一文章中的第一位置信息与在所述第二文章中的第二位置信息相同的占比;
第一确定模块,用于在所述占比未超过的第一阈值的情况下,确定所述第一文章和所述第二文章为不相同的文章。
7.根据权利要求6所述的装置,其特征在于:
所述第一确定模块,还用于在所述第一文章和所述第二文章中存现的相同的思想政治词语的数量小于第二阈值的情况下,确认所述第一文章和所述第二文章为不相同的文章。
8.根据权利要求7所述的装置,其特征在于,所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语的数量大于等于所述第二阈值的情况下,
所述第一确定模块还用于判断所述第一文章中的思想政治词语和所述第二文章中存在的思想政治词语是否小于等于第三阈值,其中,所述第三阈值大于所述第二阈值;在小于等于所述第三阈值的情况下,判断所述第一文章去掉相同的思想政治词语后剩余的字数与所述第二文章去掉所述相同的思想政治词语有剩余的字数的差值是否大于所述第四阈值;在大于所述第四阈值的情况下,确定所述第一文章和所述第二文章为不同的文章。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于黑龙江八一农垦大学,未经黑龙江八一农垦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110664367.3/1.html,转载请声明来源钻瓜专利网。