[发明专利]一种长文本到短文本的迁移学习方法有效
申请号: | 201310241428.0 | 申请日: | 2013-06-18 |
公开(公告)号: | CN103324708A | 公开(公告)日: | 2013-09-25 |
发明(设计)人: | 初妍;陈曼;夏琳琳;沈洁;王勇;杨悦;张健沛;杨静;赵芳丹 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 迁移 学习方法 | ||
1.一种长文本到短文本的迁移学习方法,其特征在于:
步骤1:根据目标领域短文本中提取的标签,通过搜索引擎获得源领域数据,提取源领域的种子特征集;
步骤2:根据目标领域短文本的标签集和源领域的种子特征集,构建社交媒体无向图,从无向图中提取包含所有目标领域标签集和种子特征集节点的子图;
步骤3:基于拉普拉斯特征映射算法,获得源领域数据新的特征表示;
步骤:4:根据源领域数据新的特征表示,对源领域数据进行分类。
2.根据权利要求1所述的长文本到短文本的迁移学习方法,其特征在于:步骤3中,通过如下步骤获得源领域新的种子特征表示:
步骤3.1:构造邻近图;
对于未标记数据采用无监督学习的距离度量,采用欧式距离计算;对于带分类标签数据的采用监督学习的距离度量,通过如下公式计算获得:
式中:ci、cj是目标数据类别C的子类,分别表示样本xi、xj的类别,d(xi,xj)表示xi、xj的欧氏距离,β为参数。
如果样本点xi、xj之间的距离小于特征项阈值ε,则为近邻点;
步骤3.2:计算权值矩阵W;
若xi、xj为近邻点,两点之间的权值Wij=1,否则为0。
步骤3.3:计算拉普拉斯算子的广义特征向量,求得低维嵌入;
式中,D为对角矩阵,L=D-W,I为单位矩阵;
通过上式求得矩阵Y,将邻近图中节点映射到一个低维空间y中,得到源领域数据新的特征表示。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310241428.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:水处理设备压力表的新型安装结构
- 下一篇:一种集群装配压力的测量装置