[发明专利]一种公告信息元素抽取方法、系统及装置在审
申请号: | 201911364864.0 | 申请日: | 2019-12-26 |
公开(公告)号: | CN113051887A | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 张剑;程刚;王昕;刘轶;黄石磊;杨大明;宋晓 | 申请(专利权)人: | 深圳市北科瑞声科技股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295;G06N3/04 |
代理公司: | 深圳市万商天勤知识产权事务所(普通合伙) 44279 | 代理人: | 罗建平 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 公告 信息 元素 抽取 方法 系统 装置 | ||
本发明公开了一种公告信息元素抽取方法、系统及装置。方法包括:预先训练公告特征段分类模型,以及,预先训练公告信息元素抽取模型;获取需要抽取信息元素的公告文本,对该公告文本进行分句形成句序列,将句序列分割为字序列;使用公告特征段分类模型预测句序列的类别,找出包含待抽取信息元素的句子;使用公告信息元素抽取模型预测字序列的类别;根据找出的包含待抽取信息元素的句子,使用相应的句序列的类别组装字序列的实体词,构建结构化的公告信息元素。本发明使用避开了由于对中文文本分词可能造成的不好效果的影响,效果更好,效率更高,适用于长文本的信息元素抽取。
技术领域
本发明涉及数据处理技术领域,具体涉及一种公告信息元素抽取方法、系统及装置。
背景技术
随着现代科学技术的高速发展以及互联网的火热,近几年文本信息数据爆发式增长,人们每天能接触到海量的文本信息,而如何从大量文本信息中提取重要的内容,已成为我们的一个迫切需求,借助信息元素抽取摘要技术可以使得文本信息以结构化的形式展现,让人很快地从大量数据中获取重要信息。信息元素抽取方法一般通过对文本中的实体、关系、事件进行抽取,提取出其中有用的的部分内容,根据文档结构信息进行填充,从而得到快速展示信息的结构化文本。目前,主要采用深度学习和序列文本标注等技术进行信息元素抽取。
【1】深度学习技术。深度学习是一种机器学习方法,可以学习样本数据的内在规律和表示层次,在这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。深度学习通过多层处理,逐渐将初始的“低层”特征表示转化为“高层”特征表示后,用“简单模型”即可完成复杂的分类等学习任务。深度学习的形式包括多层感知器、卷积神经网络、循环神经网络、深度置信网络和其它混合构筑。
【2】特征向量化。在对文本信息处理的过程中,将信息转化为数字信息更方便于计算机的处理,在很多的自然语言处理的工程中,会将数据转换成向量形式来表示文本特征,进而通过文本的特征对数据进行各种操作。在传统的向量化处理中,一般先将文本进行分词,对词进行向量化,用向量来表示文本的特征,从而得到一种与原始文本有着某种关系的特征向量表达方式,以这种特征向量化后的数据为起点进行后面的各种数据处理工作,例如:文本分类任务,命名实体识别任务等。
【3】序列标注。序列标注问题是自然语言中最常见的问题,在深度学习火起来之前,常见的序列标注问题的解决方案都是借助于HMM(Hidden Markov Model,隐马尔可夫模型)模型、最大熵模型、CRF(conditional random field algorithm,条件随机场算法)模型。尤其是CRF,是解决序列标注问题的主流方法。序列标注问题包括自然语言处理中的分词,词性标注,命名实体识别,关键词抽取,词义角色标注等等。我们只要在做序列标注时给定特定的标签集合,就可以进行序列标注。其本质上是对线性序列中每个元素根据上下文内容进行分类的问题。
现有技术中,申请号为“CN201811549314.1”的专利申请公开了一种基于文档结构与深度学习的金融类公告信息抽取方法,包括:S1:生成文档结构树;S2:抽取节点信息:基于文档结构树设计便捷的查找节点信息的方法,利用规则提取树的节点信息;S3:抽取信息句:对于已抽取到的节点信息,定义句子触发词集,在句子触发词集的基础上,拓展包含触发词集的局部句子结构规则,从而抽取符合规则的信息句;S4:训练词向量:预训练上下文的词向量,并利用CNN训练字符词向量;S5:抽取结构化信息:构建基于Bi-LSTM-CRF的深度学习模型,训练该模型进行字段识别。
该发明能快速高效且在人工干预较少的情况下准确提取出所需的各类结构化信息,但是,存在如下问题:对于结构不清晰的公告,生成文档结构树的难度大且效果不佳,节点信息也更难以表示,对于长文本的信息抽取,可能使得结构树层次太多,冗余性大且规则难以定义,如果只按照信息元素内容文本特征无法确定是否是需要抽取的信息,给信息抽取带来很大的困难。
实践发现,现有技术的信息抽取技术存在如下缺陷:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市北科瑞声科技股份有限公司,未经深圳市北科瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911364864.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高效净化的抽油烟机
- 下一篇:一种新闻内容的查重方法、系统及装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置