[发明专利]基于实例获取的非平衡交互文本的话题识别方法有效

申请号：	201310403755.1	申请日：	2013-09-06
公开（公告）号：	CN103500159A	公开（公告）日：	2014-01-08
发明（设计）人：	田锋;高鹏达;郑庆华;吴凡	申请（专利权）人：	西安交通大学
主分类号：	G06F17/27	分类号：	G06F17/27;G06F17/30
代理公司：	西安通大专利代理有限责任公司 61200	代理人：	朱海临
地址：	710049 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于实例获取平衡交互文本话题识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于实例获取的非平衡交互文本的话题识别方法，其特征在于：包括如下步骤：

第一步：从源数据集中筛选实例阶段：

(1)确定共有特征集中代表实例的特征集，即从源数据集Dset_Source和目标数据集Dset_Target的共有特征集中选择代表实例并且倾向于少数类的特征集，具体算法为：

Step：按照label空间所有类别计算F_Source和F_Target各特征的信息增益值InformationGain，并将计算结果分别按降序排列各数据集特征，排序后的特征集如下：

F_Source＝{f_Source(1)，f_Source(2)，…，f_Source(i)，…，f_Source(R₁)}，1≤i≤R₁

F_Target＝{f_Target(1)，f_Target(2)，…，f_Target(j)，…，f_Target(R₂)}，1≤j≤R₂

其中，f_Source(i)是F_Source中排序为第i个位置的特征，f_Target(j)是F_Target中排序为第j个位置的特征，R₁为F_Source中特征的总个数，R₂为F_Target中特征的总个数，各特征是特征词词典中的词，特征值为在类标签空间label下，采用TF-IDF算法获得的各特征值；

Step2：若F＝F_Source∩F_Target＝φ成立，则，所提算法终止，实例获取失败；否则，有F(l)∈F，其中，F(l)为共有特征集F中第l个特征，1≤l≤M，M≤min{R₁，R₂}，且定义有M个元素的数组TopN_IGratio，同时，设TopN_IGratio(m)表示数组TopN_IGratio的第m个元素中存储的值；

Step3：确定共有特征F(m)在F_Source中的位置n_Source，形成特征与位置对(n_Source，F(l))，并按照n_source的值升序排列所有特征与位置对，并记最大的位置n_source为MAX_n_source；确定共有特征F(m)在F_Target中的位置n_Target，形成特征与位置对(n_Target，F(l))，并按照n_Target的值升序排列所有特征与位置对，并记最大的位置n_Target为MAX_n_Target；将升序排序后的特征与位置对(n_source，F(l))放入新生产的二维数组Location中，且Location(m，col)表示Location中第m行第col列的元素，且1≤m≤M≤R₁col＝{1，2}；If MAX_n_Target＞Max_n_source则，令

Location(M，1)＝MAX_n_Target，令m＝1

Step4：N＝Location(m，2)，N≤R₁；

Step5：在Dset_Source和Dset_Target的前N个特征中进行匹配，得到共有特征的子集F^s(m)，并设F^s(m)的元素个数为np，计算以下评价函数：

TopN_IGratio(m)=Σl=1npIGFSource(F(l))*F_Weight(l)Σi=1NFSource(i)]]> (公式1)

其中：

F_Weight(l)=Σk=1Wp(tk,Cminority)*logp(tk,Cminority)p(tk)*p(Cminority)]]> (公式2)

目，表示F_Source中Top-N特征信息增益值求和；

表示F_Source∩F_Target中第l个特征在F_Source中的信息增益值；

F_Weight(l)对少数类实例的特征赋予权值；

t_k为第l个共有特征F(l)的属性值，共W个；

C_minority为数据集中少数类的类别；

是计算np个共有特征的信息增益值与权重的加权和；

Step6：m＝m+1；如果m＞M，则执行Step7；否则，执行Step4；

Step7：取数组TopN_IGratio中的最大值，并标记为TopN_IGratio_MAX，并确定其在数组TopN_IGratio中的下标为m_MAX，确定代表实例并且偏向于少数类特征的特征集F_Instance，其维数为m_MAX维，记为：

F_Instance＝{f_Instance(1)，f_Instance(2)，…，f_Instance(i)，…，f_Instance(m_MAX)}，1≤i≤m_MAX m_MAX≤M≤min{R₁，R₂}；

(2)以余弦相似度排序筛选源数据集实例，采用余弦函数计算每个少数类目标实例和源数据集中同类别实例的相似度，并按此相似度的值降序排序，针对每一个少数类目标实例，获取前K个与目标数据集实例相似的源数据集实例，具体算法为：

Step1：以特征集F_Instance作为特征空间，对源数据集Dset_Source和目标数据集Dset_Target中的少数类实例进行表示，所得对应的少数类特征值向量如下：

InstanceSourceCminority=(fValuesource(1),...,fValuesource(i),...,fValuesource(mMAX)),1≤i≤mMAX]]>

InstanceTargetCminority=(fValuetarget(1),...,fValuetarget(i),..,fValuetarget(mMAX)),1≤i≤mMAX]]>

其中，和分别是特征集F_Instance第i个维度f_Instance(i)上相应的特征值；

Step2：是目标数据集Dset_Target中的少数类实例的第j个实例，(1≤j≤L)，是源数据集Dset_Source中同类别的少数类实例，(1≤n≤S)，其中S是源数据集Dset_Source中同类别的少数类实例的个数，定义有S个元素的数组Similarity_value，同时设Similarity_value(a)表示数组Similarity_value第a个元素存储的值，(1≤a≤S)；定义算法的输出为由K*S个实例组成的数据集DsetSimilarity，其中DsetSimilarity(instance(L))为第L个实例，K＝S／L，1≤L≤K*S；

Step3：令j＝1；

Step4：计算与Dset_Source中所有同类别少数类实例(1≤n≤S)的余弦相似度，分别存储到Similarity_value数组中；

(公式3)

Step5：对Similarity_value数组降序排序，取排序值前Top-K所对应的Dset_Source少数类实例存入DsetSimilarity；

Step6：j＝j+1，如果j≤L，则执行Step4；否则，程序结束，输出DsetSimilarity；

第二步：实例特征向量空间一致性处理，即以实例相似度为权值合成实例的特征向量，使其与目标实例的特征向量空间一致，具体处理的过程为：

Step1：合成DsetSimilarity中实例在F_Target中除共有特征F外的特征向量，定义变量数组Similarity_value同第一步中(2)中的定义，定义算法的输出为由K*S个实例组成的数据集Dset_Instance，其中Dset_Instance(instance(T))为第T个实例，K＝S／L，1≤T≤K*S；

Step2：令j＝1；

Step3：计算与Dset_Source中所有同类别少数类实例(1≤n≤s)的余弦相似度，分别存储到Similarity_value数组中，见公式3；

Step4：定义大小为K的数组sim_weight，K＝S／L，设sim_weight(k)表示数组sim_weight第k个元素存储的值，对Similarity_value数组降序排序，取前Top-K排序值，存入到数组sim_weight中；

Step5：以sim_weight数组的元素值作为权重合成实例的特征向量：

F‾_Instancek=sim_weight(k)*F‾_InstanceTarget(j),1≤k≤K]]>