[发明专利]一种长文本到短文本的迁移学习方法有效

申请号：	201310241428.0	申请日：	2013-06-18
公开（公告）号：	CN103324708A	公开（公告）日：	2013-09-25
发明（设计）人：	初妍;陈曼;夏琳琳;沈洁;王勇;杨悦;张健沛;杨静;赵芳丹	申请（专利权）人：	哈尔滨工程大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种文本迁移学习方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种长文本到短文本的迁移学习方法。

背景技术

随着科技的飞速发展，互联网信息越来越多样化，短文本如微博、QQ消息、在线广告等在网络应用中扮演着越来越重要的角色。短文本数据具有关键词少、缺少上下文信息、文本表示高维稀疏、很难对文本特征完整准确表达等特点。当目标领域为短文本数据且只有少量标记数据时，对短文本数据库信息进行统计、分类则成为一大难题。与短文本相比，由于长文本篇幅较长，上下文中会携带较多与文本主题相关的关键词，并且长文本在网络中出现的时间比较早，其分类技术已较为成熟。若能将长文本领域的分类方法迁移到短文本领域，则会对解决短文本分类问题提供了很大帮助。

目前，有一些对从长文本到短文本迁移学习方法的研究，但其往往要求给出与目标领域短文本相关的源领域数据，这样在数据的获取及领域相关性衡量方面则会由于人的主观性产生一些误差，从而对目标任务造成负面影响；也有一些研究要求在长文本到短文本的迁移学习之前要知道数据的先验概率分布，而这在实际中很难获得。

发明内容

本发明目的在于提供一种无需提供源领域数据、无需知道数据的先验概率分布的长文本到短文本的迁移学习方法。

实现本发明目的技术方案：

一种长文本到短文本的迁移学习方法，其特征在于：

步骤1：根据目标领域短文本中提取的标签，通过搜索引擎获得源领域数据，提取源领域的种子特征集；

步骤2：根据目标领域短文本的标签集和源领域的种子特征集，构建社交媒体无向图，从无向图中提取包含所有目标领域标签集和种子特征集节点的子图；

步骤3：基于拉普拉斯特征映射算法，获得源领域数据新的特征表示；

步骤:4：根据源领域数据新的特征表示，对源领域数据进行分类。

优选地，步骤3中，通过如下步骤获得源领域新的种子特征表示：

步骤3.1:构造邻近图；

对于未标记数据采用无监督学习的距离度量，采用欧式距离计算；对于带分类标签数据的采用监督学习的距离度量,通过如下公式计算获得：