[发明专利]一种基于深度域适应的跨域测试文档分类方法有效

专利信息
申请号: 202110641886.8 申请日: 2021-06-09
公开(公告)号: CN113360633B 公开(公告)日: 2023-10-17
发明(设计)人: 王崇骏;杜云涛;张怡;杨海洋;资帅 申请(专利权)人: 南京大学
主分类号: G06F16/335 分类号: G06F16/335;G06F16/35;G06F40/242;G06F40/279;G06N3/04;G06N3/08
代理公司: 南京瑞弘专利商标事务所(普通合伙) 32249 代理人: 孙建朋
地址: 210023 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 深度 适应 测试 文档 分类 方法
【说明书】:

发明提出了一种基于深度域适应的跨域测试文档分类方法。包括1、数据采集阶段,获取足够多的辅助领域的文档数据及其标注,以及要分类的目标领域的文档数据;2、数据预处理阶段,对俩个领域的全部文档进行词语的划分之后进行去重和去停用词,之后进行字典的构建,再将每一个文档表示成one‑hot向量的形式;3、在跨域数据迁移阶段,将辅助领域和目标领域的数据同时送入深度网络中,来进行特征的学习和提取。本发明节省了数据标注的时间和人力成本,可结合多种网络结构进行特征的提取。

技术领域

本发明属于跨域数据的分类方法领域,尤其涉及一种基于深度域适应的跨域测试文档分类方法。

背景技术

随着大量有标注数据的出现和计算性能的提升,监督学习已经在很多领域已经取得了很好的效果。但是这些方法需要很多的时间和精力来对数据进行标注,在很多的实际场景中对此类方法的应用会受到很多的限制。因此,许多研究者开始探究从辅助领域中迁移知识到目标领域中,从而提升目标领域的效果。这正是领域自适应研究的目标。现有的领域自适应方法包括传统域适应和深度域适应。

传统域适应方法指基于非深度学习的方法,其主要包括基于样本加权和基于子空间映射的方法。前者通过辅助领域的样本和目标领域的相关性对辅助领域的样本进行加权,并基于加权后的样本来训练模型。后者旨在于学习一个映射矩阵,将辅助领域和目标领域的数据映射到一个公共子空间中,使得在此空间下,辅助领域和目标领域的分布差异得以降低,从而可以使得辅助领域上学习到的分类器可以在目标领域上取得一个比较好的效果。

深度域适应主要包括统计分布对齐和对抗域适应两部分。统计分布对齐旨在于缩小源域和目标域之间的统计距离,从而最小化两个领域之间的分布差异。对抗域适应是受到深度生成网络的启发,引入一个域判别器来进行模型的学习和训练。域判别器用来判别输入的样本是来自于源域还是目标域,特征提取器则用来和域判别器进行对抗,在对抗收敛后,可以使得特征提取器提取到领域不变的特征,从而可以提升模型在目标领域的效果。

发明内容

本发明目的在于提供一种基于深度域适应的跨域测试文档分类方法,以解决监督学习方法需要很多的时间和精力来对数据进行标注,在很多的实际场景中对此类方法的应用会受到很多的限制的技术问题。

为解决上述技术问题,本发明的具体技术方案如下:

一种基于深度域适应的跨域测试文档分类方法,包括以下步骤:

步骤1、数据采集,采集辅助领域的文档数据及其标注,以及要分类的目标领域的文档数据;

步骤2、数据预处理,包括以下步骤:

步骤2.1、对辅助领域和目标领域的全部文档都进行分词处理,从而将整个文档划分成许多个词的组合;

步骤2.2、对划分出的词语进行去重处理;

步骤2.3、对去重后的词语进行停用词过滤,得到最终的字典;

步骤2.4、根据字典,将辅助领域和目标领域中的每个文档都表示成one-hot向量,获得该文档的初始特征表示;

步骤3、域适应阶段,将辅助领域和目标领域的数据都送入神经网络模型中,对文档进行特征提取,在获得文档的特征表示后,对这两部分数据进行损失函数的计算,其损失函数包括两部分,第一部分是辅助数据上有标注数据的分类损失,其作用是将辅助领域的样本分类正确,第二部分是两个领域之间的分布差异损失,其作用是缩小两个领域之间的分布差异来提取领域不变的特征。

进一步的,步骤3中神经网络模型是预训练语言模型,预训练语言模型通过在预训练中学习到的通用语言知识进一步地提升在下游任务的效果。

进一步的,步骤3具体包括以下步骤:

步骤3.1、将辅助领域和目标领域通过one-hot向量表示的文本数据同时输入模型中,获取文本数据的特征表示;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110641886.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top