[发明专利]一种实时文本数据流的特定信息识别方法及系统有效
申请号: | 201911244895.2 | 申请日: | 2019-12-06 |
公开(公告)号: | CN111143553B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 李扬曦;任博雅;井雅琪;时磊;段东圣;余翠玲;胡燕林;佟玲玲;宋永浩;梁冬 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院计算技术研究所 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F18/2415;G06N3/045;G06N3/09;G06N3/047 |
代理公司: | 北京律诚同业知识产权代理有限公司 11006 | 代理人: | 祁建国 |
地址: | 100031*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实时 文本 数据流 特定 信息 识别 方法 系统 | ||
本发明提出一种实时文本数据流的特定信息识别方法及系统。本发明主要解决的问题是针对海量实时文本数据流实现领域关注的特定信息识别。本发明提出一种针对海量实时文本数据流的特定信息识别框架及系统,侧重于具有海量性、实时性、多样化和复杂性特点的社交文本特定信息识别,并且实现能够适用于生产环境的社交大数据在线实时分析系统。本发明的目的在于根据互联网环境及手机短信网络环境下海量文本数据流,识别出文本中隐含的特定信息。
技术领域
本发明涉及大数据技术、自然语言处理和深度学习领域,尤其涉及一种针对海量实时文本数据流的特定信息识别方法及系统。
背景技术
随着web2.0技术以及移动互联网的快速发展和深入普及,人们的沟通方式突破了传统的线下语言交流和纸质的文本模式,带来了多方面信息传播模式的变革,一方面从信息传播载体上可以通过短信、微博、QQ以及微信等软件化的沟通介质,另一方面相比于传统信息传播模式,新技术极大地提升了信息传播速度、传播范围、影响程度等方面。例如,单条微博可以在短时间内使得数十万甚至数百万用户参与其中。同时,信息的快速海量传播蕴含着巨大的能量和信息价值。例如,事件监管、新闻热点发现、商业价值挖掘等。特别的,针对社交网络中某些特殊事件的信息识别,具有重要的网络安全意义和经济价值。
目前,针对海量文本数据的特定信息准确、快速识别成为各行业实际应用的核心难点。主要包括以下几方面:(1)由于特定信息数据的稀疏性和语义表达的多样性,导致特定信息识别困难;(2)生产环境中通常面对海量文本数据,而文本分析的算法模型具有较高计算复杂度,海量文本数据的处理能力成为制约实际应用的瓶颈。
现有信息识别方面的研究工作侧重在公开数据集中提升识别模型的准确率和召回率指标,主流的方法有以下三类:基于卷积神经网络的信息识别方法、基于递归神经网络的信息识别方法和基于Transformer结构的信息识别方法。卷积神经网络的方法将文本表示的向量作为嵌入层,通过卷积和池化操作提取句子的关键信息,从而捕捉文本的语义信息。递归神经网络的方法采用LSTM(长短时记忆单元)或GRU(门控循环单元)记忆文本字符间的连接关系,从而捕获一定长度文本的局部信息,达到特定信息的识别效果。基于Transformer结构的方法摈弃了传统的递归和卷积网络结构,能够捕获更深层次的文本语义,提升模型训练效率。现有方法侧重在封闭数据集中提升模型的性能指标,主要存在两方面的问题:一是在生产环境中数据稀疏性和多样性的特征下,无法达到预期的识别效果;二是针对海量数据复杂模型无法满足实际应用的效率目标。总体上,现有方法缺乏对信息识别的系统化、多维度的研究探索,并且绝大部分研究内容侧重于算法的改进与学术产出,无法适用于实际海量文本的在线实时数据分析,导致研究成果的应用性不强。
发明内容
本发明主要解决的问题是针对海量实时文本数据流实现领域关注的特定信息识别。本发明提出一种针对海量实时文本数据流的特定信息识别框架及系统,侧重于具有海量性、实时性、多样化和复杂性特点的社交文本特定信息识别,并且实现能够适用于生产环境的社交大数据在线实时分析系统。本发明的目的在于根据互联网环境及手机短信网络环境下海量文本数据流,识别出文本中隐含的特定信息,并构建实际的应用系统使得线上识别准确率达到85%,召回率达到90%,每小时处理文本条数达到3亿条以上。
针对现有技术的不足,本发明提出一种基于模型级联模式的针对海量实时文本数据流的特定信息识别框架,并给出具体的工程实施方案:
一种实时文本数据流的特定信息识别方法,包括:
步骤1、获取领域语料数据和类别标注数据,该领域语料数据包括多条具有领域标签的文本信息,该类别标注数据包括多条具有类别标签的文本信息;
步骤2、以该领域语料数据作为训练数据,通过执行无监督语言模型的训练,得到初步领域语言模型,加载该类别标注数据至该初步领域语言模型,执行有监督语言模型的训练,得到最终领域语言模型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院计算技术研究所,未经国家计算机网络与信息安全管理中心;中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911244895.2/2.html,转载请声明来源钻瓜专利网。