首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]基于维数约简的集成迁移文本分类方法无效

申请号：	201310090096.0	申请日：	2013-03-20
公开（公告）号：	CN103218405A	公开（公告）日：	2013-07-24
发明（设计）人：	王爽;焦李成;刘婷婷;李鹏;侯彪;刘芳	申请（专利权）人：	西安电子科技大学;西安电子科技大学昆山创新研究院
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	南京苏高专利商标事务所(普通合伙) 32204	代理人：	柏尚春
地址：	710126 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于维数约简集成迁移文本分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于维数约简的集成迁移文本分类方法，其特征在于：包括以下步骤

(1) 输入源域文本数据和目标域文本数据，进行初步预处理，将文本数据转化为单词向量形式：

1a) 统计每个文本中不同单词出现的次数，并将出现次数小于2的词语对应的次数定为0；

1b) 使用TF-IDF作为特征选取度量的方式，得到文本中词语的权重；

1c)将权重作为样本特征值，得到每个文本样本的特征向量；

1d) 将每一个特征向量形式的样本归一化，使得该向量的模值为单位1；

(2) 将提取到的特征输入到目标域测试样本集和源域有标记的样本集，其中，和中的样本数目分别为和；

(3) 对有标记的源域样本集进行Boostrap随机采样得到相应的源域子集，并与目标域测试文本数据集重新组合成新的数据子集：

3a) 设定采样次数为T次，并以K近邻算法作为基本分类算法，其中K值由参数分析后确定；

3b) 以概率p从所述源域文本集中有放回的随机选取源域样本子集，样本数目为；

3d) 将上步得到的源域子集分别与目标域样本集组合成新的数据子集，其中矩阵，每行表示一个样本向量，前行表示源域样本，后行表示目标域测试样本，则；

(4) 分别将数据子集中的两领域样本进行SVD奇异值分解：；

(5) 将数据集投影到低维空间，得到降维后的数据集：；

(6)在低维空间中，分别利用降维后的各数据子集中的源域样本对测试样本分类；

(7)检查所述算法的采样次数是否达到T，若已达到，则执行步骤(8)；否则，返回步骤3b)；

(8)采用投票的集成方式判定当前测试样本的标签，得票数多的预测结果作为最终的预测标签。

2.根据权利要求1所述的基于维数约简的集成迁移文本分类方法，其特征在于：步骤(6)中所述的利用降维后的各数据子集中的源域样本对测试样本分类，具体采取的分类方法如下

6a) 在低维空间中，对于每个目标域测试样本，根据相似度衡量方法中的余弦夹角计算与各个源域样本间的相似度值，并将其作为对应源域样本的权重：

6b) 降相似度值降序排列，抽取相似度值最高的前个源域样本；

6c) 用这个样本对加权投票，得到预测的标签。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学;西安电子科技大学昆山创新研究院，未经西安电子科技大学;西安电子科技大学昆山创新研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201310090096.0/1.html，转载请声明来源钻瓜专利网。

上一篇：旋光性的二胺衍生物及其制造方法
下一篇：一种含四氮唑-5-乙酸有机配体的非心金属镉配合物及其制备方法和应用

同类专利

专利分类

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top