[发明专利]基于自动构建目标实体集的政策文件信息匹配和推送方法有效
申请号: | 202011033563.2 | 申请日: | 2020-09-27 |
公开(公告)号: | CN112258144B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 李军锋;张磊;廖敏;向彦任;李济;冯梅;万勤;张旭;曹宏剑;张亚玲 | 申请(专利权)人: | 重庆生产力促进中心;重庆邮电大学 |
主分类号: | G06Q10/10 | 分类号: | G06Q10/10;G06Q50/26;G06F40/295;G06K9/62 |
代理公司: | 重庆西南华渝专利代理有限公司 50270 | 代理人: | 郭桂林 |
地址: | 401120*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 自动 构建 目标 实体 政策 文件 信息 匹配 推送 方法 | ||
1.一种基于自动构建目标实体集的政策文件信息匹配和推送方法,其特征在于,包括以下步骤:
扫描待推送政策文件,获取待推送政策文件主送抄送实体集以及发布层次;
提取待推送政策文件中的主题和关键信息,基于主题和关键信息生成与其领域相关的应推送实体集;
比较应推送实体集与获取的主送抄送实体集之间是否存在相同实体,对存在的相同实体进行重点标记,并将应推送实体集中含有而主送抄送实体集中不含有的实体加入主送抄送实体集组合为初推送实体集;
确定初推送实体集中的所有实体是否均符合发布层次,若全部符合,初推送实体集则为待推送实体集,若存在不符合实体,则将不符合实体删除得到待推送实体集;
将待推送实体集与推送系统中已存储的推送实体进行匹配,向匹配成功的推送实体直接推送政策文件,将待推送实体集含有而推送系统中不含有的推送实体加入推送系统中并进行人工审核以确定是否向其推送政策文件。
2.根据权利要求1所述的基于自动构建目标实体集的政策文件信息匹配和推送方法,其特征在于,扫描待推送政策文件,获取待推送政策文件主送抄送实体集以及发布层次包括:建立正则表达式,使用正则表达式扫描待推送政策文件,获取待推送文件的主送抄送实体集以及发布层次,其中,主送抄送实体集由待推送政策文件中包含的主送实体和抄送实体组成。
3.根据权利要求2所述的基于自动构建目标实体集的政策文件信息匹配和推送方法,其特征在于,建立正则表达式包括:基于政策文件格式,根据主送实体、抄送实体以及发布层次的位置规则、前后标点符号规则和/或前后特殊符号规则建立正则表达式。
4.根据权利要求1、2或3所述的基于自动构建目标实体集的政策文件信息匹配和推送方法,其特征在于,还包括:向匹配成功的推送实体直接推送政策文件的同时采用消息列队对推送了政策文件实体的实体联系人发送提醒短信。
5.根据权利要求4所述的基于自动构建目标实体集的政策文件信息匹配和推送方法,其特征在于,消息列队中间采用RabbitMQ。
6.根据权利要求4所述的基于自动构建目标实体集的政策文件信息匹配和推送方法,其特征在于,对推送了政策文件实体的实体联系人发送提醒短信包括:对主送实体以及重点标记的相同实体对应的实体联系人发送重点提醒信息,重点提醒信息包括待推送政策文件的内容概述。
7.根据权利要求1、2、3、5或6所述的基于自动构建目标实体集的政策文件信息匹配和推送方法,其特征在于,提取待推送政策文件中的主题和关键信息包括:利用ULMFiT、Transformer或Bert提取待推送政策文件内容中的主题和关键信息。
8.根据权利要求1、2、3、5或6所述的基于自动构建目标实体集的政策文件信息匹配和推送方法,其特征在于,提取待推送政策文件中的主题和关键信息包括:
构建政策文件语料库;
基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型;
利用政策文件信息提取模型对待推送政策文件内容中的主题和关键信息进行提取。
9.根据权利要求8所述的基于自动构建目标实体集的政策文件信息匹配和推送方法,其特征在于,构建政策文件语料库包括:
对现有开源语料库进行筛选,保留与政策文件相关性大于80%的语料,并将现有开源语料库中的其它语料删除;
收集现有政策文件,整理分类后得到政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集,并对现有政策文件中出现的一机构对应多名称的语料进行标注;
对政策文件常用词语语料集、政府各部门领导名单语料集以及政策文件目录语料集定期更新并加入筛选后的现有开源语料库中,得到初始政策文件语料库;
对包含政策文件的网页进行爬取,人工阅读后提取政策文件信息并将其加入初始政策文件语料库,得到扩充后政策文件语料库;
对扩充后政策文件语料库进行标注,完成政策文件语料库的构建。
10.根据权利要求8所述的基于自动构建目标实体集的政策文件信息匹配和推送方法,其特征在于,基于构建的政策文件语料库进行模型训练以生成政策文件信息提取模型包括以下步骤:
对构建的政策文件语料库进行预处理,生成训练集和验证集;
基于BERT预训练模型读取训练集和验证集数据,生成包含序号、中文文本以及类别的列表;
对列表进行特征转换得到特征值;
将特征值输入BERT预训练模型进行模型训练;
利用Adam优化函数进行优化训练,获取最佳模型参数,得到政策文件信息提取模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆生产力促进中心;重庆邮电大学,未经重庆生产力促进中心;重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011033563.2/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理