[发明专利]一种从互联网采集的政府采购中标公告判重方法及系统在审
申请号: | 201711036961.8 | 申请日: | 2017-10-30 |
公开(公告)号: | CN107832381A | 公开(公告)日: | 2018-03-23 |
发明(设计)人: | 姬永杰;陈国强;王长勇;任建新 | 申请(专利权)人: | 北京大数元科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京天悦专利代理事务所(普通合伙)11311 | 代理人: | 田明,任晓航 |
地址: | 100094 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 采集 政府 采购 中标 公告 方法 系统 | ||
1.一种从互联网采集的政府采购中标公告判重方法,包括以下步骤:
采集数据生成语料库,所述语料库基于NLP建立;
从语料库中取出其中一条记录作为待判重公告,对该条记录对应的公告标题进行向量化处理,然后与语料库中其余的公告标题逐个计算相似度;
当向量值差小于0.1条件成立时,则认为找到相似度较高的两个公告,否则认为未找到相似度较高的两个公告;
在找到相似度较高的两个公告时,进一步判断两个公告的采购人与供应商的相似度,
如果采购人与供应商的相似度较高时,进一步判断两个公告的中标金额是否相等,如相等则判定为两个公告重复。
2.根据权利要求1所述的一种从互联网采集的政府采购中标公告判重方法,其特征在于:所述语料库中至少包括以下关键属性:公告标题。
3.根据权利要求2所述的一种从互联网采集的政府采购中标公告判重方法,其特征在于:所述语料库中包括以下关键属性:公告标题,采购人名称,供应商名称,中标金额。
4.根据权利要求1所述的一种从互联网采集的政府采购中标公告判重方法,其特征在于:所述语料库基于NLP建立是指:取出采集数据中的公告标题作为一组数据,对公告标题分词,计算每个词的词频并分析特征值,计算出每个词在本组公告标题的权重,建立本组公告的语料库。
5.根据权利要求1所述的一种从互联网采集的政府采购中标公告判重方法,其特征在于:所述采购人与供应商的相似度较高是指:将采购人名称与供应商名称做余弦相似度处理,如果余弦相似度小于0.1,则认定采购人与供应商的相似度较高。
6.一种从互联网采集的政府采购中标公告判重系统,包括:
公告采集模块,用于收集一个时期内的政府采购中标公告;
NLP处理模块,用于基于NLP建立语料库;
第一级比对模块,用于公告标题的向量值对比处理,以获取疑似重复公告;
第二级比对模块,用于进一步判断两个公告的采购人与供应商的相似度;
第三级比对模块,用于进一步判断两个公告的中标金额是否相等;
结果输出模块,用于输出是否存在公告重复的判定结果。
7.根据权利要求6所述的一种从互联网采集的政府采购中标公告判重系统,其特征在于:所述公告采集模块包括一采集周期设定单元,用于设定采集周期,
所述采集周期默认为一个月。
8.根据权利要求6所述的一种从互联网采集的政府采购中标公告判重系统,其特征在于:所述NLP处理模块包括一数据解析单元,用于从政府采购中标公告中获取语料库中包括的关键属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大数元科技发展有限公司,未经北京大数元科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711036961.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据记录方法
- 下一篇:基于文字生成视频的方法、装置、设备及存储介质