[发明专利]一种基于神经网络的文本定位技术在审
申请号: | 202111052127.4 | 申请日: | 2021-09-08 |
公开(公告)号: | CN113849600A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 穆宁;王志海;高永伟;李曙光;宋万军 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/211;G06N3/04;G06N3/08 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 陆志斌 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 文本 定位 技术 | ||
本发明公开了一种基于神经网络的文本定位技术,包括以下步骤:获取待提取关键信息的文本内容,首先利用一个句子表征网络模块对文本中的每个句子进行向量化表征,对于一个包含N个句子的文本,每个句子最终用该句子表征网络模块转变成一个D维向量,D维向量可以用该网络模块的配置参数进行自定义配置;将上一步得到的信息输入到句子间的上下文信息表征网络模块,采集上下句信息增加到句子向量表征中。该种基于神经网络的文本定位技术,通过利用神经网络的语义理解能力,通过提供大量的样本,让神经网络自行学习到待标记文本区域的特征与上下文信息,从而摆脱了人为制定大量规则繁琐,以及利用规则去寻找分割点无法充分理解语义的问题。
技术领域
本发明涉及数据处理技术领域,具体为一种基于神经网络的文本定位技术。
背景技术
随着信息技术的不断发展,日常生活中产生的信息类型、信息量越来越多,因此在较多场景下存在从各式各样的信息中提取所需内容的需求,现有技术中,对信息中的关键内容进行提取时一般采用正则表达式处理,其通过针对不同范式的信息写不同的正则表达式来提取信息中的关键内容,由于正则表达式是根据特定范式的信息来撰写的,因此对于少量的、特殊范式的信息,能够用专门定制的正则表达式来较为快速且准确地提取所需的信息内容,但正则表达式无法穷尽信息的各种特殊情况且当面对大量的不同范式的信息文本时,需要人工来写大量的正则表达式,耗时耗力。文本定位技术是定位文本中特定文本区间,可以利用该技术去进行文本内容过滤,清洗,以及在定位到的文本区间内进行信息抽取。比如定位到博文中存在大量的广告,就可以过滤掉这些广告,或者定位到邮件落款区域,可以进一步从落款区域提取信息。
现有的文本定位技术通常采用规则的方式进行,通过进行词库、词表等方式,匹配文本中的一些关键特征作为分割点,从而获取特定的文本区间,但是这种方式仅限于特征维度较小的场景,随着特征维度的增加,单纯的规则无法完整覆盖这么多的特征,并且语言的含义非常复杂,词库词表等方式对于上下文语义很难把握住。因此我们对此做出改进,提出一种基于神经网络的文本定位技术。
发明内容
为了解决上述技术问题,本发明提供了如下的技术方案:
本发明一种基于神经网络的文本定位技术,包括以下步骤:
获取待提取关键信息的文本内容,首先利用一个句子表征网络模块对文本中的每个句子进行向量化表征,对于一个包含N个句子的文本,每个句子最终用该句子表征网络模块转变成一个D维向量,D维向量可以用该网络模块的配置参数进行自定义配置,则该文本被转变为N个D维向量的有序集合;
将上一步得到的信息输入到句子间的上下文信息表征网络模块,采集上下句信息增加到句子向量表征中,可以得到N个K维向量,K维向量可以用该网络的配置参数进行自定义配置;
根据上一步得到的融合上下文信息的句子表征向量输入到句子类别分类网络模块,句子类别分类网络模块旨在得到文本中各句子的类别,通过句子类别分类网络模块可得到该句子是否是待定位文本区域的起始句、中间句、结束句或者无关句;
利用上述步骤得到的句子的位置类别,得到待定位的文本区间。
作为本发明的一种优选技术方案,所述利用一个句子表征网络模块对文本中的每个句子进行向量化表征,该句子表征网络模块包括并不仅限于利用卷积神经网络或者循环神经网络,所述句子表征模块为Bi-LSTM。
作为本发明的一种优选技术方案,所述句子类别分类网络模块可以用一个全连接神经网络去构建。
作为本发明的一种优选技术方案,所述句子类别分类网络模块可以用条件随机场去构建。
作为本发明的一种优选技术方案,所述神经网络用于对句子之间进行上下文信息交互表征,得到增加了上下句信息的句子向量。
作为本发明的一种优选技术方案,所述根据网络的预测结果与真实的结果对比,得到损失函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111052127.4/2.html,转载请声明来源钻瓜专利网。