[发明专利]企业质量信用数据获取方法和系统在审
申请号: | 201611129883.1 | 申请日: | 2016-12-09 |
公开(公告)号: | CN106777048A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 王旻;王傲巍;司琳华;袁辉;马军 | 申请(专利权)人: | 全国组织机构代码管理中心 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙)11369 | 代理人: | 史霞 |
地址: | 100029 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 企业 质量 信用 数据 获取 方法 系统 | ||
技术领域
本发明涉及数据获取技术领域,更具体地,涉及企业质量信用数据获取方法和系统。
背景技术
关于质量信用中国产品质量协会对质量信用给出较为权威的定义。质量信用是指企业在产品(服务)质量方面的信用状况,既是企业履行其产品(服务)质量承诺的能力和程度,又表达了顾客的需求,这就要求必须具有法律规定的可靠性,能满足法律规定的信用原则,包括满足《产品质量法》和《合同法》等有关法律法规的要求。企业质量信用是我国企业在生产经营活动中遵守我国相关的质量法律法规、贯彻执行相关的标准、兑现质量承诺的能力成熟度。
海量的企业质量信用评价数据依靠人工上报来获取,效率低下,费时费力,并且数据质量与人工知识和经验有很大关系,无法确保数据获取的一致性、准确性和全面性。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种从互联网抓取各自相关信息,并基于词汇之间的语法和逻辑关系获得的企业质量信用数据获取方法和系统。
为了实现根据本发明的这些目的和其它优点,提供了一种企业质量信用数据获取方法,包括:
S1、对与企业质量信用相关的数据进行预处理,得到语料数据;
S2、对所述语料数据进行知识挖掘,得到模板数据;以及
S3、从所述语料数据中提取与所述模板数据对应的关键数据,作为企业质量信用数据。
优选地,所述步骤S1具体包括:
S1.1、从网络资源中获取各技术领域中与企业质量信用相关的数据;
S1.2、抓取所述数据中的文档转换为xml格式文档;以及
S1.3、对所述xml格式文档进行去噪,获得所述语料数据。
优选地,所述步骤S1.1具体包括:
S1.1.1、基于爬虫框架,根据设定的种子请求一个页面,并将有效的URL添加到队列中等候处理;
S1.1.2、提取队列中等候的第一个链接对其进行页面解析,并根据user-defined-extractor自定义的抽取器提取出有效的文本信息,以镜像存储结构存储到本地;以及
S1.1.3、将页面中有效的URL再次加入队列等候处理,如此不断地分析下去,直到最后一个链接无任何有效链接为止,完成一次任务的抓取,如此不断循环往复,直至抓取完所需的预定网上资源。
其中,所述步骤S1.2中的文档为pdf文档、doc文档、ppt文档、html文档、excel文档以及txt文档中的一种或多种。
优选地,所述步骤S2具体包括:
S2.1、将所述语料数据中的句子分解为多个单词,并对所述单词进行词性批注;
S2.2、基于所述单词以及词性批注获取每个句子中单词间的语法修饰关系,对满足独立句子结构且符合名词与名词搭配、形容词与名词搭配、形容词与两个名词搭配、动词与名词搭配、名词与动词搭配、三个名词搭配、动词与两个名词搭配、形容词与动词和名词搭配以及名词与动词和名词搭配的词组作为备选组合;
S2.3、统计所有单词和备选组合在各技术领域出现的频率和在所有技术领域出现的总频率,并转化为每个单词或备选组合的每百万字节中的标准频率和总标准频率;
S2.4、基于所述标准频率和总标准频率,对所有单词或备选组合进行分类,分类项中至少包括领域单词和领域组合;以及
S2.5、基于语句中领域单词和/或领域组合间的语法关系和继承关系,从所述语料数据中获得所述模板数据。
优选地,所述步骤S2.4至少包括:
当某单词的总标准频率高于一定值Fmax,且在总标准频率中标准频率的分布较为均匀,标准差S小于Smin,则认定该单词为常用词;
当某单词的总标准频率高于Fmin,且在总标准频率中,集中分布于个别领域,则认定词为该个别领域的所述领域单词;或
当某备选组合不含有常用词,且该备选组合在语料数据中出现的总标准频率大于Fmax,且在总标准频率中,集中分布于个别领域,则认定该备选组合为该个别领域的所述领域组合。
优选地,所述步骤S3具体包括:
S3.1、基于正则表达式遍历所述语料数据,获得含有所述模板数据中继承关系的句子,并映射到所述模板数据中的基础关系概念对;
S3.2、对所述步骤S3.1获得的每一个句子进行分词并抽取在语料数据中经常出现的单词、备选组合和表达方式,计算每种表达方式在所有语句中所占比率,选取比率大于一定值F的表达方式,作为备选句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于全国组织机构代码管理中心,未经全国组织机构代码管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611129883.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置