[发明专利]一种长文本到短文本的迁移学习方法有效

专利信息
申请号: 201310241428.0 申请日: 2013-06-18
公开(公告)号: CN103324708A 公开(公告)日: 2013-09-25
发明(设计)人: 初妍;陈曼;夏琳琳;沈洁;王勇;杨悦;张健沛;杨静;赵芳丹 申请(专利权)人: 哈尔滨工程大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 文本 迁移 学习方法
【权利要求书】:

1.一种长文本到短文本的迁移学习方法,其特征在于:

步骤1:根据目标领域短文本中提取的标签,通过搜索引擎获得源领域数据,提取源领域的种子特征集;

步骤2:根据目标领域短文本的标签集和源领域的种子特征集,构建社交媒体无向图,从无向图中提取包含所有目标领域标签集和种子特征集节点的子图;

步骤3:基于拉普拉斯特征映射算法,获得源领域数据新的特征表示;

步骤:4:根据源领域数据新的特征表示,对源领域数据进行分类。

2.根据权利要求1所述的长文本到短文本的迁移学习方法,其特征在于:步骤3中,通过如下步骤获得源领域新的种子特征表示:

步骤3.1:构造邻近图;

对于未标记数据采用无监督学习的距离度量,采用欧式距离计算;对于带分类标签数据的采用监督学习的距离度量,通过如下公式计算获得:

D(xi,xj)=1-exp(-d2(xi,xj)/β)(ci=cj)exp(d2(xi,xj)/β)(cicj)]]>

式中:ci、cj是目标数据类别C的子类,分别表示样本xi、xj的类别,d(xi,xj)表示xi、xj的欧氏距离,β为参数。

如果样本点xi、xj之间的距离小于特征项阈值ε,则为近邻点;

步骤3.2:计算权值矩阵W;

若xi、xj为近邻点,两点之间的权值Wij=1,否则为0。

步骤3.3:计算拉普拉斯算子的广义特征向量,求得低维嵌入;

argmintr(YTLY)s.t.YTDY=I]]>

式中,D为对角矩阵,L=D-W,I为单位矩阵;

通过上式求得矩阵Y,将邻近图中节点映射到一个低维空间y中,得到源领域数据新的特征表示。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310241428.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top