[发明专利]一种公告信息元素抽取方法、系统及装置在审
申请号: | 201911364864.0 | 申请日: | 2019-12-26 |
公开(公告)号: | CN113051887A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 张剑;程刚;王昕;刘轶;黄石磊;杨大明;宋晓 | 申请(专利权)人: | 深圳市北科瑞声科技股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295;G06N3/04 |
代理公司: | 深圳市万商天勤知识产权事务所(普通合伙) 44279 | 代理人: | 罗建平 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公告 信息 元素 抽取 方法 系统 装置 | ||
1.一种公告信息元素抽取方法,其特征在于,包括:
预先训练公告特征段分类模型,以及,预先训练公告信息元素抽取模型;
获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;
使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;
使用公告信息元素抽取模型预测字序列的类别;
根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,构建结构化的公告信息元素。
2.根据权利要求1所述的方法,其特征在于,所述预先训练公告特征段分类模型,包括:
数据预处理步骤:获取用作语料的公告文本,对该公告文本进行分句,形成句序列;对该公告文本进行段落划分,将该公告文本划分为训练集、验证集和未标注集,对训练集和验证集进行标注;将训练集、验证集和未标注集分别转换为特征向量集;
分类模型训练步骤:将训练集所转换的特征向量集输入神经网络,学习句子的特征,执行卷积运算和全连接,对训练集进行句分类,训练得到公告特征段分类模型。
3.根据权利要求1所述的方法,其特征在于,所述预先训练公告信息元素抽取模型,包括:
数据预处理步骤:获取输入的公告文本,对该公告文本进行分句,形成句序列,将句序列分割成字序列,进行字向量化,得到字向量集,将字向量集分割为训练集和测试集,训练集中的一部分为验证集;
神经网络训练步骤:将训练集用来初始化公告信息元素抽取模型,并采用验证集对该模型进行验证和调整,将测试集作为该模型的输入,预测出测试集的标签,评估该模型的性能。
4.根据权利要求1所述的方法,其特征在于,
所述公告特征段分类模型包括归一化指数函数Softmax;
所述公告信息元素抽取模型主要由双向门控循环单元BiGRU、卷积神经网络CNN和条件随机场CRF组成。
5.一种公告信息元素抽取系统,其特征在于,包括:
数据预处理模块,用于获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;
公告核心文本块分类模块,用于预先训练公告特征段分类模型,使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;
文本块信息元抽取模块,用于预先训练公告信息元素抽取模型,使用公告信息元素抽取模型预测字序列的类别;
结构化处理模块,用于根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,构建结构化的公告信息元素。
6.根据权利要求5所述的系统,其特征在于,所述公告核心文本块分类模块预先训练公告特征段分类模型,包括:
数据预处理步骤:获取用作语料的公告文本,对该公告文本进行分句,形成句序列;对该公告文本进行段落划分,将该公告文本划分为训练集、验证集和未标注集,对训练集和验证集进行标注;将训练集、验证集和未标注集分别转换为特征向量集;
分类模型训练步骤:将训练集所转换的特征向量集输入神经网络,学习句子的特征,执行卷积运算和全连接,对训练集进行句分类,训练得到公告特征段分类模型。
7.根据权利要求5所述的系统,其特征在于,所述文本块信息元抽取模块预先训练公告信息元素抽取模型,包括:
数据预处理步骤:获取输入的公告文本,对该公告文本进行分句,形成句序列,将句序列分割成字序列,进行字向量化,得到字向量集,将字向量集分割为训练集和测试集,训练集中的一部分为验证集;
神经网络训练步骤:将训练集用来初始化公告信息元素抽取模型,并采用验证集对该模型进行验证和调整,将测试集作为该模型的输入,预测出测试集的标签,评估该模型的性能。
8.根据权利要求5所述的系统,其特征在于,
所述公告特征段分类模型包括归一化指数函数Softmax;
所述公告信息元素抽取模型主要由双向门控循环单元BiGRU、卷积神经网络CNN和条件随机场CRF组成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市北科瑞声科技股份有限公司,未经深圳市北科瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911364864.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效净化的抽油烟机
- 下一篇:一种新闻内容的查重方法、系统及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置