[发明专利]一种小样本文本分类方法、装置、计算机设备和存储介质在审

申请号：	202110343641.7	申请日：	2021-03-30
公开（公告）号：	CN112989049A	公开（公告）日：	2021-06-18
发明（设计）人：	程良伦;王德培;张伟文;李睿濠;谭骏铭;蔡森源	申请（专利权）人：	广东工业大学
主分类号：	G06F16/35	分类号：	G06F16/35;G06F40/211;G06N3/04
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510090 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种样本文本分类方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种小样本文本分类方法，其特征在于，所述方法包括以下步骤：

S1：获取文本数据集，对文本数据集进行处理，获得小样本文本数据集；

S2：对小样本文本数据集中的文本数据进行预处理；

S3：用向量形式表征预处理后文本数据中的单词和句子；

S4：以句子为单元划分句子节点，计算句子节点间的权重；

S5：遍历所有句子节点，计算每个句子节点的累加权重，直到每个句子节点的累加权重都收敛；

S6：按照累加权重的数值从大到小对句子节点进行排序，提取前n位的句子节点对应的句向量作为文本摘要；

S7：对文本摘要的句向量中每个词向量加权，获得最终句向量；

S8：选定分类器，利用最终句向量对分类器进行训练，利用文本数据集中的文本数据对分类器进行性能测试，实现分类。

2.根据权利要去1所述的小样本文本分类方法，其特征在于，所述S1中，获得小样本文本数据集的具体方法为：

将文本数据集分为训练集、测试集和验证集；将训练集、测试集和验证集每个集合分为支撑集和查询集，对支撑集中的每个类别抽取定量文本数据，组成小样本文本数据集。

3.根据权利要去2所述的小样本文本分类方法，其特征在于，所述S2中，对文本数据预处理的方法包括：文本分句、句子分词和去除停用词。

4.根据权利要去3所述的小样本文本分类方法，其特征在于，所述S3中，利用Glove算法，生成预处理后文本数据中的单词s的词向量vector(s)；句向量表示为：v_i＝Avg(vector(s))，其中v_i表示第i个句子对应的句向量，其中Avg(·)表示求均值操作。

5.根据权利要去4所述的小样本文本分类方法，其特征在于，所述S4中，计算句子节点间的权重w_ij的具体方法为：

构建有向有权图G＝(V，E，W)，V表示句向量集合，E表示句子节点间的边，W表示句子节点间的权重集合；V、E和W分别表示为：

V＝{v₁，v₂，...，v_i，v_n-1，v_n}

E＝{(v₁，v₂)，(v₁，v₃)，...，(v_i，v_j)，(v_n，v_n-2)，(v_n，v_n-1)}

W＝{w₁₂，w₁₃，...，w_ij，...，w_n(n-2)，w_n(n-1)}

则句子节点间的权重w_ij表示为：

w_ij＝cos(v_i，v_j)

其中，w_ij表示第i个句子对应的句向量和第j个句子对应的句向量量间的权重，1＜i＜n，1＜j＜n，n表示文本数据中句子的数量。

6.根据权利要去5所述的小样本文本分类方法，其特征在于，所述S5中，计算各句子节点的累加权重的具体方法为：

其中，WS(v_i)表示第i个句子对应的句向量的累加权重，d表示阻尼系数，v_j表示第j个句子对应的句向量，IN(v_i)表示指向v_i的集合，v_k表示第k个句子对应的句向量，OUT(v_j)表示v_j指向的集合，w_ji表示第j个句子对应的句向量和第i个句子对应的句向量间的权重，w_jk表示第j个句子对应的句向量和第k个句子对应的句向量间的权重，WS(v_j)表示第j个句子对应的句向量的累加权重，1＜i＜n，1＜j＜n，n表示文本数据中句子的数量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广东工业大学，未经广东工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110343641.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种个性化二尖瓣自动建模方法、系统及设备
下一篇：桩基模型的生成方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种小样本文本分类方法、装置、计算机设备和存储介质在审

专利文献下载