[发明专利]一种从互联网采集的政府采购中标公告判重方法及系统在审
申请号: | 201711036961.8 | 申请日: | 2017-10-30 |
公开(公告)号: | CN107832381A | 公开(公告)日: | 2018-03-23 |
发明(设计)人: | 姬永杰;陈国强;王长勇;任建新 | 申请(专利权)人: | 北京大数元科技发展有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京天悦专利代理事务所(普通合伙)11311 | 代理人: | 田明,任晓航 |
地址: | 100094 北京市海淀区西北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互联网 采集 政府 采购 中标 公告 方法 系统 | ||
技术领域
本发明涉及数据处理技术领域,具体涉及一种从互联网采集的政府采购中标公告判重方法及系统。尤指基于NLP(自然语言处理)的从互联网采集的政府采购中标公告判重方法及系统。
背景技术
政府采购中标公告(简称为公告)按照政策要求,需要在3个以上的网站进行公开,每年公开的公告数量超过100万条,由于各个地区信息化管理要求不同或者一些人为误操作的原因,同一个公告在不同网站发布的内容存在一定的差异。
这些公告被很多机构通过网络爬虫的方式采集并解析,解析要么采用传统的关键属性比对的方法(通过公告标题等关键属性比对,亦称为内容相等判重),要么采用更智能的自然语言处理相似度比较的方法(亦称为自然语言相似度判重)。无论用上述哪种解析方法,都存在10%(内容相等判重)或者5%(自然语言相似度判重)左右的重复率,对于进一步的数据分析与利用造成较大的障碍。
本发明涉及以下技术术语:
NLP,自然语言处理,用于对中文文档向量化处理,具体包括:首先对一组中文文档分词得到若干词,计算词频,统计特征,然后计算每个词在中文文档中的权重,从而计算出每个中文文档的向量值。
余弦相似度,将中文文档向量化处理,求出每个中文文档的余弦值,通过两个中文文档余弦值的差值,判断两个中文文档的相似度。
政府采购中标公告解析,通过字符串截取等方式,解析出政府采购中标公告中的关键属性,包括:公告标题、采购人名称、供应商名称、中标金额等。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种从互联网采集的政府采购中标公告判重方法及系统,对通过网络爬虫的方式采集的政府采购中标公告进行判重,能够判别出一组政府采购中标公告中的重复公告,为后续数据分析与利用提供高质量数据集。
为实现上述目的,本发明采用的技术方案如下:
一种从互联网采集的政府采购中标公告判重方法,包括以下步骤:
采集数据生成语料库,所述语料库基于NLP建立;
从语料库中取出其中一条记录作为待判重公告,对该条记录对应的公告标题进行向量化处理,然后与语料库中其余的公告标题逐个计算相似度;
当向量值差小于0.1条件成立时,则认为找到相似度较高的两个公告,否则认为未找到相似度较高的两个公告;
在找到相似度较高的两个公告时,进一步判断两个公告的采购人与供应商的相似度,
如果采购人与供应商的相似度较高时,进一步判断两个公告的中标金额是否相等,如相等则判定为两个公告重复。
进一步,如上所述的一种从互联网采集的政府采购中标公告判重方法,所述语料库中至少包括以下关键属性:公告标题。
进一步,如上所述的一种从互联网采集的政府采购中标公告判重方法,所述语料库中包括以下关键属性:公告标题,采购人名称,供应商名称,中标金额。
进一步,如上所述的一种从互联网采集的政府采购中标公告判重方法,所述语料库基于NLP建立是指:取出采集数据中的公告标题作为一组数据,对公告标题分词,计算每个词的词频并分析特征值,计算出每个词在本组公告标题的权重,建立本组公告的语料库。
进一步,如上所述的一种从互联网采集的政府采购中标公告判重方法,所述采购人与供应商的相似度较高是指:将采购人名称与供应商名称做余弦相似度处理,如果余弦相似度小于0.1,则认定采购人与供应商的相似度较高。
一种从互联网采集的政府采购中标公告判重系统,包括:
公告采集模块,用于收集一个时期内的政府采购中标公告;
NLP处理模块,用于基于NLP建立语料库;
第一级比对模块,用于公告标题的向量值对比处理,以获取疑似重复公告;
第二级比对模块,用于进一步判断两个公告的采购人与供应商的相似度;
第三级比对模块,用于进一步判断两个公告的中标金额是否相等;
结果输出模块,用于输出是否存在公告重复的判定结果。
进一步,如上所述的一种从互联网采集的政府采购中标公告判重系统,所述公告采集模块包括一采集周期设定单元,用于设定采集周期,
所述采集周期默认为一个月。
进一步,如上所述的一种从互联网采集的政府采购中标公告判重系统,所述NLP处理模块包括一数据解析单元,用于从政府采购中标公告中获取语料库中包括的关键属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大数元科技发展有限公司,未经北京大数元科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711036961.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据记录方法
- 下一篇:基于文字生成视频的方法、装置、设备及存储介质