[发明专利]一种公告信息元素抽取方法、系统及装置在审

专利信息
申请号: 201911364864.0 申请日: 2019-12-26
公开(公告)号: CN113051887A 公开(公告)日: 2021-06-29
发明(设计)人: 张剑;程刚;王昕;刘轶;黄石磊;杨大明;宋晓 申请(专利权)人: 深圳市北科瑞声科技股份有限公司
主分类号: G06F40/211 分类号: G06F40/211;G06F40/295;G06N3/04
代理公司: 深圳市万商天勤知识产权事务所(普通合伙) 44279 代理人: 罗建平
地址: 518000 广东省深圳市南山区*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 公告 信息 元素 抽取 方法 系统 装置
【权利要求书】:

1.一种公告信息元素抽取方法,其特征在于,包括:

预先训练公告特征段分类模型,以及,预先训练公告信息元素抽取模型;

获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;

使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;

使用公告信息元素抽取模型预测字序列的类别;

根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,构建结构化的公告信息元素。

2.根据权利要求1所述的方法,其特征在于,所述预先训练公告特征段分类模型,包括:

数据预处理步骤:获取用作语料的公告文本,对该公告文本进行分句,形成句序列;对该公告文本进行段落划分,将该公告文本划分为训练集、验证集和未标注集,对训练集和验证集进行标注;将训练集、验证集和未标注集分别转换为特征向量集;

分类模型训练步骤:将训练集所转换的特征向量集输入神经网络,学习句子的特征,执行卷积运算和全连接,对训练集进行句分类,训练得到公告特征段分类模型。

3.根据权利要求1所述的方法,其特征在于,所述预先训练公告信息元素抽取模型,包括:

数据预处理步骤:获取输入的公告文本,对该公告文本进行分句,形成句序列,将句序列分割成字序列,进行字向量化,得到字向量集,将字向量集分割为训练集和测试集,训练集中的一部分为验证集;

神经网络训练步骤:将训练集用来初始化公告信息元素抽取模型,并采用验证集对该模型进行验证和调整,将测试集作为该模型的输入,预测出测试集的标签,评估该模型的性能。

4.根据权利要求1所述的方法,其特征在于,

所述公告特征段分类模型包括归一化指数函数Softmax;

所述公告信息元素抽取模型主要由双向门控循环单元BiGRU、卷积神经网络CNN和条件随机场CRF组成。

5.一种公告信息元素抽取系统,其特征在于,包括:

数据预处理模块,用于获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;

公告核心文本块分类模块,用于预先训练公告特征段分类模型,使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;

文本块信息元抽取模块,用于预先训练公告信息元素抽取模型,使用公告信息元素抽取模型预测字序列的类别;

结构化处理模块,用于根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,构建结构化的公告信息元素。

6.根据权利要求5所述的系统,其特征在于,所述公告核心文本块分类模块预先训练公告特征段分类模型,包括:

数据预处理步骤:获取用作语料的公告文本,对该公告文本进行分句,形成句序列;对该公告文本进行段落划分,将该公告文本划分为训练集、验证集和未标注集,对训练集和验证集进行标注;将训练集、验证集和未标注集分别转换为特征向量集;

分类模型训练步骤:将训练集所转换的特征向量集输入神经网络,学习句子的特征,执行卷积运算和全连接,对训练集进行句分类,训练得到公告特征段分类模型。

7.根据权利要求5所述的系统,其特征在于,所述文本块信息元抽取模块预先训练公告信息元素抽取模型,包括:

数据预处理步骤:获取输入的公告文本,对该公告文本进行分句,形成句序列,将句序列分割成字序列,进行字向量化,得到字向量集,将字向量集分割为训练集和测试集,训练集中的一部分为验证集;

神经网络训练步骤:将训练集用来初始化公告信息元素抽取模型,并采用验证集对该模型进行验证和调整,将测试集作为该模型的输入,预测出测试集的标签,评估该模型的性能。

8.根据权利要求5所述的系统,其特征在于,

所述公告特征段分类模型包括归一化指数函数Softmax;

所述公告信息元素抽取模型主要由双向门控循环单元BiGRU、卷积神经网络CNN和条件随机场CRF组成。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市北科瑞声科技股份有限公司,未经深圳市北科瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911364864.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top