[发明专利]一种基于领域适应的少样本文本分类方法在审

专利信息
申请号: 202110266906.8 申请日: 2021-03-11
公开(公告)号: CN112925885A 公开(公告)日: 2021-06-08
发明(设计)人: 韩瑞峰;金霞;杨红飞 申请(专利权)人: 杭州费尔斯通科技有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/35;G06F40/211
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 刘静
地址: 310051 浙江省杭州市*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 领域 适应 样本 文本 分类 方法
【说明书】:

发明公开了一种基于领域适应的少样本文本分类方法,首先根据支点特征与标签之间的互信息排序,选取前N个支点特征。其次建立训练数据集,训练支点特征分类器,全部支点特征构成系数矩阵,表示非支点特征与支点特征的相关性。然后计算特征映射函数,对系数矩阵作奇异值分解,左矩阵的前h行作为映射函数。将映射函数F与输入样本特征x相乘表示源领域和目标领域共同的特征。最后在源领域语料上训练文本分类模型,并将训练好的模型用于目标领域上进行预测。本发明利用领域间共同的支点特征得到领域间不同的非支点特征之间的对应关系,从而达到领域间特征迁移映射的目的。

技术领域

本发明涉及文本分类领域,尤其涉及一种基于领域适应的少样本文本分类方法。

背景技术

在文本信息抽取的应用场景中,场景多样、细化,缺少标注样本,标注样本获取成本高是工业应用上面临的现状,目前的技术针对少量标注样本的场景还没有成熟的方案,面对这样的现状,能否巧妙地利用现有标注资源,将模型学习到的知识迁移到少量样本场景下,是一个热门的研究方向。

目前的文本信息抽取方法中,基于模型训练的方法需要大量的标注样本,虽然有一些深度模型呈现准确度越来越高,需要的标注样本量越来越少的趋势,但仍然需要一定量的标注样本才能训练得到可用的模型,在获得样本前,无法开展工作,这样的过程相当于将开发成本转嫁到样本的标注上,整体开发效率仍然低下。

本发明用于文本分类,利用相近领域的大量标注资源,在目标领域上不需要标注样本就可得到准确率较高的抽取模型。

发明内容

本发明目的在于针对现有技术的不足,提出一种基于领域适应的少样本文本分类方法,本发明用不同领域的语料之间的相同特征作为支点特征,建立领域间特征的映射,使得在具有大量标签的源领域上训练的模型能够在没有标签的目标领域上同样表现出良好的准确率,将其应用在文本分类任务上,在相似领域间的迁移学习中,能够得到无标签目标领域文本分类较高的准确率。

本发明的目的是通过以下技术方案来实现的:一种基于领域适应的少样本文本分类方法,该方法包括如下步骤:

(1)选取支点特征

对源领域的带标签样本,计算每个样本句子n-gram特征作为句子的多维特征,每一维即一种n-gram特征,用全部样本的每一维特征与样本的类别标签计算每维特征与标签之间的互信息,互信息越大表示支点特征与标签越相关,并对所有维度的特征按照互信息值从大到小进行排序,对排序后的特征维度选取前N个,作为支点特征,记录被选取支点特征在全部源领域和目标领域无标签样本得到的n-gram特征vector_unlab中的序号,得到序号集合pi,其中包含N个支点特征的序号。

(2)建立训练数据集,训练支点特征分类器

从vector_unlab中建立训练数据,得到训练数据集,训练一组预测样本句子中是否存在支点特征的支点特征分类器,其中对每条训练数据根据序号集合pi筛选出对应维度的支点特征,作为支点特征分类器的输出,每条数据除pi序号外的维度的非支点特征,作为支点特征分类器的输入。具体为:对每一维支点特征i训练一个逻辑回归模型作为支点特征分类器,每个样本为一条数据,对所有数据训练逻辑回归模型,判断样本中是否存在该维特征,训练后得到逻辑回归模型的系数wi,wi为一个列向量,其维度为非支点特征的维度数量,对全部支点特征构成矩阵w=[w1,w2,…,wM]。wM表示第M维支点特征,wi中第j维的数值wij表示第j维非支点特征与第i维支点特征的相关性,wij为正值表示正相关。

(3)计算特征映射函数

对步骤(2)中得到的矩阵w作奇异值分解,左矩阵的前h行作为映射函数F。对一个输入样本的特征x,F*x表示了源领域和目标领域共同的特征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州费尔斯通科技有限公司,未经杭州费尔斯通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110266906.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top