[发明专利]一种政策汇聚与企业画像匹配推荐的方法在审
申请号: | 202111519192.3 | 申请日: | 2021-12-14 |
公开(公告)号: | CN113918707A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 张磊;孙欢欢;贾晓光;张松梅;庄超 | 申请(专利权)人: | 中关村科技软件股份有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F16/951;G06F16/25;G06F16/215 |
代理公司: | 北京纽乐康知识产权代理事务所(普通合伙) 11210 | 代理人: | 刘艳艳 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 政策 汇聚 企业 画像 匹配 推荐 方法 | ||
本发明公开了一种政策汇聚与企业画像匹配推荐的方法,该方法为:采用系统爬虫及Xpath规则解析收集互联网数据,同时通过人工录入的方式获取数据,将获得到的数据存储到数据库中;采用ETL技术将S1获取的数据进行清洗、转换、去杂、解析;采用NLP技术对S2预处理后的数据进行标签化处理;将提取的政策数据标签以及分类提取的企业数据标签进行匹配评估,同时加入企业画像评估算法进行模型制定,从而得出企业相关匹配度政策集;将得到的企业相关匹配度政策集按照匹配度推送给企业。本发明的政策汇聚与企业画像匹配推荐的方法能使得各类企业获取到适合的优惠政策,达到了效率高、智能化、精准化,提高企业管理效率的效果。
技术领域
本发明涉及政策智能匹配技术领域,具体来说,涉及一种政策汇聚与企业画像匹配推荐的方法。
背景技术
随着大数据的发展及应用,逐渐形成了以数据采集、数据ETL、数据分析为数据底座的应用,由于数据的量级、多样性、复杂性和文本数据智能语义分析与提取算法等因素,基于大数据的爬虫技术、ELT技术、NLP语义分析、智能匹配算法等相关技术成为常用的手段。
企业想获取与企业相关的政策,需要付出大量的人力、时间等资源,从海量政策中筛选出符合其自身申报的政策,进一步影响企业响应政策,调整自己的工作重心或无法享受政策给企业带来的福利。因此,如何将优惠政策信息快速、高效推送给可满足条件相匹配的企业是本领域亟需解决的技术问题。
发明内容
针对相关技术中的上述技术问题,本发明提出一种政策汇聚与企业画像匹配推荐的方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种政策汇聚与企业画像匹配推荐的方法,包括以下步骤:
S1 数据获取:采用系统爬虫及Xpath规则解析收集互联网数据,同时通过人工录入的方式获取数据,将获得到的数据存储到数据库中;
S2 数据预处理:采用ETL技术将S1获取的数据进行清洗、转换、去杂、解析;
S3 数据文本提取及标签化:采用NLP技术对S2预处理后的数据进行语义理解、分词形成可用标签;
S4 匹配模型定制:将S3中提取的政策数据标签以及分类提取的企业数据标签进行匹配评估,同时加入企业画像评估算法进行模型制定,从而得出企业相关匹配度政策集;
S5 政策推送:将S4得到的企业相关匹配度政策集按照匹配度推送给企业。
进一步地,S1中所述互联网数据包括互联网惠企政策、公告文件等。
进一步地,S1中所述通过人工录入的方式获取数据为:通过客户端录入收集的可公示线下政策数据。
进一步地,S2中将获取的数据进行清洗包括:
空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根据字段空值实现分流加载到不同目标库;
规范化数据格式:可实现字段格式约束定义,对于数据源中时间、数值、字符等数据,可自定义加载格式;
拆分数据:依据业务需求对字段可进行分解;
验证数据正确性:可利用Lookup及拆分功能进行数据验证;
数据替换:对于因业务因素,可实现无效数据、缺失数据的替换;
Lookup:查获丢失数据 Lookup实现子查询,并返回用其他手段获取的缺失字段,保证字段完整性;
建立ETL过程的主外键约束:通过建立一张主表,其中存放数据的基本信息,将建立id字段作为该表主键(主关键字),它的值用于唯一的标识表中的某一条记录,作为后续存放标签所建立的公共关系表的外键(外关键字)。该操作杜绝无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。
进一步地,S3中数据文本提取及标签化包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中关村科技软件股份有限公司,未经中关村科技软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111519192.3/2.html,转载请声明来源钻瓜专利网。