[发明专利]一种文本特征提取方法与系统、电子设备、介质有效
申请号: | 202310255047.1 | 申请日: | 2023-03-16 |
公开(公告)号: | CN116306673B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 戚耀;陈红阳;吕劲松;刘善赟 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35;G06F16/332;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 311121 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 特征 提取 方法 系统 电子设备 介质 | ||
本发明公开了一种文本特征提取方法与系统、电子设备、介质,所述方法包括将文本序列转换成形状为(Hsubgt;in/subgt;,Wsubgt;in/subgt;,Dsubgt;in/subgt;)的张量序列,其中Hsubgt;in/subgt;、Wsubgt;in/subgt;、Dsubgt;in/subgt;为正整数;构建文本特征提取网络,通过文本特征提取网络提取张量序列特征。本发明方法对文本序列的每个元素特征和文本特征都扩展了两个维度,使特征张量可以比词向量包含更多的方位、形状等语义信息,同时结合拥有局部连接特性的文本特征提取网络处理张量序列,增强了特征的可解释性和语义容量。
技术领域
本发明涉及人工智能和自然语言处理领域,尤其是涉及一种文本特征提取方法与系统、电子设备、介质。
背景技术
随着计算机科学的发展,大规模存储、大规模计算技术的完善,人工智能技术中的自然语言处理在日常生活越来越流行,在机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比等方向有着广泛的应用。
在自然语言处理的相关应用中,文本特征提取是其核心问题。目前的流行的做法是,把文本中的组成元素,如词汇、字等用一个向量来表示,称为词向量,将词向量按顺序输入人工智能算法模型来获取文本特征。word2vec、LSTM、RNN、BERT等算法都是基于词向量来开发的。
然而,基于词向量的文本特征提取方法存在可解释性弱的问题,词向量在特征空间的位置和方向很难与该词在现实世界中所表示的物体对应起来,尤其是比较抽象的词汇,如方位词的词向量的意义会更难解释。此外,word2vec、LSTM、RNN、BERT等算法对向量的处理方式比较局限,基本都是对整个向量的所有元素进行加权聚合,语义性弱,灵活度低。
因此,亟需提出一种文本特征提取方法,以提高可解释性。
发明内容
针对现有技术不足,本发明提供了一种文本特征提取方法与装置。
为实现上述发明目的,本发明的技术方案为:
本发明实施例的第一方面提供了一种文本特征提取方法,所述方法包括:
将文本序列转换成形状为(Hin,Win,Din)的张量序列,其中Hin、Win、Din为正整数;
构建文本特征提取网络,通过文本特征提取网络提取张量序列特征。
本发明实施例的第二方面提供了一种文本特征提取系统,用于实现上述的文本特征提取方法,所述系统包括:
张量序列生成模块,用于将文本序列转换成形状为(Hin,Win,Din)的张量序列,其中Hin、Win、Din为正整数;
文本特征提取网络模块,用于提取张量序列特征。
本发明实施例的第三方面提供了一种电子设备,包括存储器和处理器,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的文本特征提取方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310255047.1/2.html,转载请声明来源钻瓜专利网。