[发明专利]文本提取方法、文本提取系统、电子设备和存储装置有效
申请号: | 202111042292.1 | 申请日: | 2021-09-07 |
公开(公告)号: | CN113505218B | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 李直旭;郑新;支洪平;王佳安 | 申请(专利权)人: | 科大讯飞(苏州)科技有限公司 |
主分类号: | G06F16/335 | 分类号: | G06F16/335;G06F16/35;G06F40/126;G06F40/194;G06F40/30 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 刘希 |
地址: | 215000 江苏省苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 提取 方法 系统 电子设备 存储 装置 | ||
本申请公开了一种文本提取方法、文本提取系统、电子设备和存储装置,该方法包括:对待处理文本进行基于自注意力机制的编码,以生成编码后的第一向量,并且在基于自注意力机制的编码过程中,待处理文本中的一部分字符与待处理文本中的所有字符进行交互,待处理文本中的另一部分字符仅与待处理文本中的部分字符进行交互;对第一向量进行解码,以得到初始提取文本;对初始提取文本进行过滤,以得到目标提取文本。上述方案,能够提高自注意力机制对待处理文本的处理效率,节约从待处理文本中提取目标提取文本的人力资源。
技术领域
本申请涉及文本处理技术领域,特别是涉及一种文本提取方法、文本提取系统、电子设备和存储装置。
背景技术
随着信息时代的来临,人们对于获取信息提出了更高的要求,在海量的信息中,需要大量的人力资源去从信息中提取重要的信息,组成短小精悍的文本以供便于阅读。以体育赛事转播为例,国内外足球比赛每年约有三万场,其中只有不到30%的比赛有相关新闻,而大量的比赛仅有评论文本。当需要将评论文本转换成新闻文本给用户阅读时,则需要新闻工作者从评论文本中进行筛选和提炼从而获得新闻文本,这大大消耗了人力资源,增加了成本。
现有技术中,在部分应用场景中会利用seq2seq模型对待处理文本进行改写,但是,seq2seq模型的自注意力机制不适用于字符超过512个字符的场景。以体育赛事为例,体育赛事的评论文本通常远超512个字符,seq2seq模型无法适用于这类字符数量较多的场景中,具有较大的局限性。有鉴于此,如何提高自注意力机制对待处理文本的处理效率,节约从待处理文本中提取目标提取文本的人力资源成为亟待解决的问题。
发明内容
本申请主要解决的技术问题是提供一种文本提取方法、文本提取系统、电子设备和存储装置,能够提高自注意力机制对待处理文本的处理效率,节约从待处理文本中提取目标提取文本的人力资源。
为解决上述技术问题,本申请第一方面提供一种文本提取方法,包括:对待处理文本进行基于自注意力机制的编码,以生成编码后的第一向量,并且在基于所述自注意力机制的编码过程中,所述待处理文本中的一部分字符与所述待处理文本中的所有字符进行交互,所述待处理文本中的另一部分字符仅与所述待处理文本中的部分字符进行交互;对所述第一向量进行解码,以得到初始提取文本;对所述初始提取文本进行过滤,以得到目标提取文本。
为解决上述技术问题,本申请第二方面提供一种文本提取系统,包括:编码模块、解码模块和过滤模块,其中,编码模块用于对待处理文本进行基于自注意力机制的编码,以生成编码后的第一向量,并且在基于所述自注意力机制的编码过程中,所述待处理文本中的一部分字符与所述待处理文本中的所有字符进行交互,所述待处理文本中的另一部分字符仅与所述待处理文本中的部分字符进行交互;解码模块用于对所述第一向量进行解码,以得到初始提取文本;过滤模块用于对所述初始提取文本进行过滤,以得到目标提取文本。
为解决上述技术问题,本申请第三方面提供一种电子设备,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现上述第一方面中的文本提取方法。
为解决上述技术问题,本申请第四方面提供一种存储装置,所述存储装置存储有能够被处理器运行的程序指令,所述程序指令用于实现上述第一方面中的文本提取方法。
上述方案,对自注意力机制进行了改进,使得在基于自注意力机制的编码过程中,待处理文本中的一部分字符与待处理文本中的所有字符进行交互,待处理文本中的另一部分字符仅与待处理文本中的部分字符进行交互,降低了基于自注意力机制进行编码的复杂度,提高了自注意力机制对待处理文本的处理效率,从而完成对待处理文本基于自注意力机制的编码,生成编码后的第一向量,对第一向量进行解码后得到初始提取文本,对初始提取文本进行过滤,以使初始提取文本更加通顺流畅,从而得到目标提取文本,提高目标文本的可读性,同时节约从待处理文本中提取目标提取文本的人力资源。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于科大讯飞(苏州)科技有限公司,未经科大讯飞(苏州)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111042292.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有防误开效果的电气设备用配电柜
- 下一篇:高速串行配置电路