[发明专利]一种文本特征提取方法与系统、电子设备、介质有效
申请号: | 202310255047.1 | 申请日: | 2023-03-16 |
公开(公告)号: | CN116306673B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 戚耀;陈红阳;吕劲松;刘善赟 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06F40/30 | 分类号: | G06F40/30;G06F16/35;G06F16/332;G06N3/0442;G06N3/0464;G06N3/048;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 311121 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 特征 提取 方法 系统 电子设备 介质 | ||
1.一种文本特征提取方法,其特征在于,所述方法包括:
将文本序列转换成形状为(Hin,Win,Din)的张量序列,其中Hin、Win、Din为正整数;
构建文本特征提取网络,通过文本特征提取网络提取张量序列特征。
2.根据权利要求1所述的文本特征提取方法,其特征在于,将文本序列转换成形状为(Hin,Win,Din)的张量序列包括:
通过配置并查询预设表确定文本序列中的每个元素对应的张量;
和/或,
通过全连接线性映射法确定文本序列中的每个元素对应的张量。
3.根据权利要求2所述的文本特征提取方法,其特征在于,通过配置并查询预设表确定文本序列中的每个元素对应的张量包括:
配置预设表,所述预设表的每行存放一个可能存在于文本序列中的元素和一个与之对应的张量,且预设表中存放文本序列中的元素的列中没有重复元素;
通过查询预设表确定文本序列中的每个元素对应的张量。
4.根据权利要求1-3任一项所述的文本特征提取方法,其特征在于,所述文本特征提取网络包括预处理单元、空间维度局部连接的处理单元和后处理单元;
所述预处理单元用于对张量序列进行预处理,包括以下一种或多种操作:恒等映射、插入一个或多个元素、每个元素分别执行一个函数;
所述空间维度局部连接的处理单元用于对预处理后的张量序列进行特征提取;
所述后处理单元用于对张量序列特征进行后处理,包括以下一种或多种操作:恒等映射、求均值、求最大值、求和、取出序列中的一项。
5.根据权利要求2所述的文本特征提取方法,其特征在于,所述方法还包括:获取文本特征提取网络参数、预设表中的张量以及全连接线性映射的参数。
6.根据权利要求5所述的文本特征提取方法,其特征在于,获取文本特征提取网络参数、预设表中的张量以及全连接线性映射的参数的过程包括:
获取数据集,数据集由若干个实例构成,每一实例包含语义一致的文本信息和图像信息;
从数据集采样B个实例,其中B为正整数;
对B个实例中的图像信息提取形状为(B,H,W,D)的图像信息特征Fb,其中H、W、D均为正整数;
对B个实例中的文本信息提取形状为(B,H,W,D)的文本信息特征Gb,其中H、W、D均为正整数;
对图像信息特征Fb和文本信息特征Gb进行归一化,记为归一化图像特征和归一化文本特征
定义形状为(B,B)的分数矩阵S,分数矩阵S中的每个元素为其中⊙表示哈达玛积;
对分数矩阵S的每行分别计算softmax函数,得到形状为(B,B)的行分数矩阵Sr;
对分数矩阵S的每列分别计算softmax函数,得到形状为(B,B)的列分数矩阵Sc;
计算损失函数,利用反向传播算法更新参数;其中,损失函数的表达式为:
其中E为单位矩阵。
7.一种文本特征提取系统,用于实现权利要求1-6任一项所述的文本特征提取方法,其特征在于,所述系统包括:
张量序列生成模块,用于将文本序列转换成形状为(Hin,Win,Din)的张量序列,其中Hin、Win、Din为正整数;
文本特征提取网络模块,用于提取张量序列特征。
8.根据权利要求7所述的文本特征提取系统,其特征在于,所述系统还包括:
参数获取模块,用于获取文本特征提取网络参数、预设表中的张量以及全连接线性映射的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310255047.1/1.html,转载请声明来源钻瓜专利网。