[发明专利]一种基于CRF识别中标单位的LSTM模型单元训练方法及装置在审
| 申请号: | 201911001373.X | 申请日: | 2019-11-11 |
| 公开(公告)号: | CN110738319A | 公开(公告)日: | 2020-01-31 |
| 发明(设计)人: | 张森;缪瑾;畅敏;于长虹;肖波;谭卓;吴宏扬;盛润;许云侠 | 申请(专利权)人: | 四川隧唐科技股份有限公司 |
| 主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
| 代理公司: | 51285 成都领航高智知识产权代理有限公司 | 代理人: | 王斌 |
| 地址: | 610000 四川省成*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 中标单位 模型单元 前向 标注 优化算法 字符向量 预测 链式 震荡 素材 修正 | ||
本发明公开了一种基于CRF识别中标单位的LSTM模型单元训练方法,包括:获取标注有中标单位的字符表单;根据所述标注有中标单位的字符表单生成字符向量训练素材;得到每一个字符的前向运行预测值;计算每个字符的前向运行预测值与该字符的实际类别之间的差距;判断所述差距是否持续震荡下降;通过链式法则,得到当前LSTM模型单元中每个参数应该变化的数值大小;通过梯度下降优化算法,得到当前LSTM模型中每个参数的变化方向和变化值,进而修正LSTM模型中每个参数。
技术领域
本发明涉及识别技术,具体的涉及用于高精度识别中标单位的LSTM模型单元训练方法及装置。
背景技术
LSTM(long short term memory,长短期记忆网络)是为了解决长期问题而专门设计出来的,所有的RNN(Recurrent Neural Network,循环神经网络)都具有一种重复神经网络模块的链式形式。在标准RNN中,这个重复的结构模块只有一个非常简单的结构,例如一个tanh层。LSTM同样是这样的结构,但是重复的模块拥有一个不同的结构。不同于单一神经网络层,这里是有四个,以一种非常特殊的方式进行交互。
CRF:(conditional random field algorithm,条件随机场)是一种无向图模型。条件随机场是一个典型的判别式模型,其联合概率可以写成若干势函数联乘的形式,其中最常用的是线性链条件随机场。若让x=(x1,x2,…xn)表示被观察的输入数据序列,y=(y1,y2,…yn)表示一个状态序列,在给定一个输入序列的情况下,线性链的CRF模型定义状态序列的联合条件概率为:
p(y|x)=exp{}(2-14)
Z(x)={}(2-15)
其中:Z是以观察序列x为条件的概率归一化因子;fj(yi-1,yi,x,i)是一个任意的特征函数;是每个特征函数的权值。
目前基于招中标文件的关键信息提取主要是根据语义分析,例如2015年浪潮集团的相关专利就是对招投标公告进行特征值分析,然后使用正则表达式进行信息提取,其所提取的特征值包括项目名称特征值,项目编号特征值,时间特征值,招标人特征值,中标人特征值,中标金额特征值。但是这种通过开发人员大量浏览招投标原本设计提取的判别特征值不仅可能存在疏漏,而且无法提取某些隐藏的特征值,这使得通过此种方法进行关键信息提取不能达到很高的精度。神经网络算法可以通过增加神经元个数的办法提取出某些隐藏的可用于判别的特征,例如将LSTM算法中Hidden Dimension设置为300,就相当于从招中标公告中提取了300个可用于判别的特征值,所以使用神经网络算法进行招中标关键信息提取效果一般都会比基于人为构造特征的算法好。
将神经网络算法用于自然语言处理是近几年发展特别好的一个方向,并且已被证明神经网络算法中的一类RNN在处理序列标注问题时具有很好的效果。但是神经网络算法在各个行业的应用程度却各不相同,我国基建行业每年多少万亿的市场规模,万个相关招中标文件,对这么多文件的高价值信息进行及时提取如果通过人工的方式,费时费力得不偿失,将基于神经网络算法的自然语言处理技术运用到招中标文件信息的自动提取是对基建行业发展情况分析的前提。
发明内容
本发明的一个目的在于提供一种基于CRF识别中标单位的LSTM模型单元训练方法及装置,使得能过准确对LSTM模型单元进行训练。
具体地,本发明是通过如下技术方案实现的:
一种基于CRF识别中标单位的LSTM模型单元训练方法,应用于计算机,所述方法包括:
S1:获取标注有中标单位的字符表单;
S2:根据所述标注有中标单位的字符表单生成字符向量训练素材;
S3:初始化LSTM模型单元;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川隧唐科技股份有限公司,未经四川隧唐科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911001373.X/2.html,转载请声明来源钻瓜专利网。





