[发明专利]一种实时文本数据流的特定信息识别方法及系统有效
申请号: | 201911244895.2 | 申请日: | 2019-12-06 |
公开(公告)号: | CN111143553B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 李扬曦;任博雅;井雅琪;时磊;段东圣;余翠玲;胡燕林;佟玲玲;宋永浩;梁冬 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院计算技术研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/2415;G06N3/045;G06N3/09;G06N3/047 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100031*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 文本 数据流 特定 信息 识别 方法 系统 | ||
1.一种实时文本数据流的特定信息识别方法,其特征在于,包括:
步骤1、获取领域语料数据和类别标注数据,该领域语料数据包括多条具有领域标签的文本信息,该类别标注数据包括多条具有类别标签的文本信息;
步骤2、以该领域语料数据作为训练数据,通过执行无监督语言模型的训练,得到初步领域语言模型,加载该类别标注数据至该初步领域语言模型,执行有监督语言模型的训练,得到最终领域语言模型;
步骤3、遍历收集的领域词汇集合,输入到该最终领域语言模型,得到词汇的表示向量,集合所有表示向量,得到领域词汇向量字典;
步骤4、将待识别文本输入至浅层网络识别模型,浅层网络识别模型针对待识别文本中每个词汇,查找该领域词汇向量字典,得到该待识别文本中词汇的高维特征向量,采用全连接隐层对该高维特征向量进行降维,得到信息更加聚集的低维特征向量,将该低维特征向量输入至文本分类层,得到识别类别结果的概率向量,基于该概率向量通过梯度下降损失函数更新浅层网络识别模型;
步骤5、将待识别文本输入至深层网络识别模型,深层网络识别模型通过该领域词汇向量字典,将待识别文本编码为词汇特征向量和位置编码向量,深层网络识别模型中复合神经网络结构层处理该词汇特征向量和该位置编码向量,得到该待识别文本的表示特征向量,将该表示特征向量输入至文本分类层,得到识别类别结果的概率向量;
步骤6、接入实时文本数据流,将该实时文本数据流进行基于规则匹配的过滤处理后逐条输入至浅层网络识别模型,识别得到文本所属类别的概率向量,判断该概率向量中概率最大的类别是否为预设的特定信息,若是则将文本传递给该深层 网络识别模型识别文本的所属类别,并根据误识别样本的特定规则模式,将该规则模式固化为处理程序,对该深层网络识别模型的识别结果中的误识别类别进行过滤,得到文本最终的所属类别,否则该概率向量中概率最大的类别作为文本的所属类别。
2.如权利要求1所述的实时文本数据流的特定信息识别方法,其特征在于,该领域语料是短信数据中包含特定业务信息的文本数据。
3.如权利要求1所述的实时文本数据流的特定信息识别方法,其特征在于,该步骤3包括:
基于该领域词汇集合,利用预训练领域语言模型生成领域词汇向量字典,表示为二元组结构:key,value,其中key代表领域词汇,value代表该词汇表示成的数值向量。
4.如权利要求1所述的实时文本数据流的特定信息识别方法,其特征在于,该步骤4包括:
对待识别文本中每个词汇查找该领域词汇向量字典,得到词汇的特征向量,采用加权平均的方式得到一个n-gram序列的特征表示,将各个n-gram序列的特征向量进行串联,得到最终的短文本特征向量;
以该短文本特征向量作为输入,采用全连接隐层对表示的文本特征向量进行降维度,提取信息更加聚集的特征向量,输入的原始文本特征向量表示为X,向量维度为词汇特征向量维度与文本表示成gram数量的乘积;全连接隐层的节点数量表示为n,全连接权重矩阵表示为W1,全连接正则化项表示为b1,则该步骤操作表示为:
FFN(X)=X·W1+b1
特征向量FFN(X)为一条短文本样本的高级特征表示,将最终表示后的文本特征向量输入给文本分类层,进行短文本样本的类别识别,输出分类结果的概率向量;
浅层网络识别模型的最后一层是softmax回归,将特征向量FFN(X)作为回归层的输入,回归层权重矩阵表示为W2,回归层正则化项表示为b2,得到最终样本识别类别结果的概率向量:
P=softmax(FFN(X)·W2+b2)
浅层网络识别模型使用梯度下降法对损失函数进行优化,来更新浅层网络识别模型的参数,其中损失函数的方式定义如下:
其中,j是样本d的类别识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院计算技术研究所,未经国家计算机网络与信息安全管理中心;中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911244895.2/1.html,转载请声明来源钻瓜专利网。