[发明专利]一种自动识别分类广告类型的广告分类方法无效
申请号: | 200610028305.9 | 申请日: | 2006-06-29 |
公开(公告)号: | CN101097570A | 公开(公告)日: | 2008-01-02 |
发明(设计)人: | 陈壮坚;徐丽 | 申请(专利权)人: | 上海唯客网广告传播有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/00 |
代理公司: | 上海申汇专利代理有限公司 | 代理人: | 翁若莹 |
地址: | 200063上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种自动识别分类广告类型的广告分类方法,其特征在于,用JAVA语言编制程序,运行在计算机内,并把KNN算法引入到基于空间向量模型的线性分析器,以便一次性的对关键词相似的广告进行自动分类,本发明的优点是能够根据用户提交的广告标题和内容自动判断广告的类型,并提高分类准确率。 | ||
搜索关键词: | 一种 自动识别 分类广告 类型 广告 分类 方法 | ||
【主权项】:
1.一种自动识别分类广告类型的广告分类方法,其特征在于,用JAVA语言编制程序,运行在计算机内,并把KNN算法引入到基于空间向量模型的线性分析器,以便一次性的对关键词相似的广告进行自动分类,该分类方法在计算机内执行时依次含有以下步骤:一、在学习阶段:步骤1:输入广告类型集;步骤2:确定采用的属性单位以及线性分类器类型;步骤3:对广告类型集进行预处理;步骤4:属性抽取:对广告类型集进行索引,得到原始属性集以及各广告类型的频度向量,广告类型用D表示,属性频度用t表示,是指出现在广告类型中且能够代表该类型的基本语言单位,主要是由词或者短语构成,广告类型可以用属性频度的集合表示为D(T1,T2,…,Tn),其中Tk是属性频度,1<=k<=N;步骤5:对原始属性集进行采用现有降维操作,即频度、权重,得到属性集,降维最基本的思想,就是利用迭代的方法,在降维空间中定位特征向量,使得它们之间的距离和相异性被尽可能多的保留下来,为了达到这个目的,在迭代中需要不断减小下面的平方误差度量:p=∑[d*(xi,xj)-f(d(xi,xj))]2,式中,xi,xj是任意的不同样本对(i≠j),d(xi,xj)是xi和xj之间的原始的相异程度,d*(xi,xj)是低维空间中转换后的相异程度,f是一个单调变换函数;步骤6:以类型为单位,合并各广告的频度向量,得到类型的轮廓描述频度向量;步骤7:对含有n个属性值的广告类型而言,通常会给每个属性赋予一定的权重表示其重要程度,即D=D(T1,W1;T2,W2;…,Tn,Wn),简记为D=D(W1,W2,…,Wn),为广告类型D的向量表示,其中Wk是Tk的权重,1<=k<=N,权重的计算方法使用特征频度-逆文档频度(TF*IDF)权重计算方法,TF*IDF方法使用词汇的出现频率来近似代表其重要程度,公式为 其中Wij表示词汇Term i在广告Document j的权重,Tf(tj,dj)表示i在j中出现的频率,df(ti)表示含有词汇i的广告的出现次数。M是所有广告的数目;步骤8:在向量空间模型中,两个概念D1和D2之间的内容相关度Sim(D1,D2)使用向量之间夹角的余弦值表示,公式为: 步骤9:根据下式,构建相应的线性分类器 其中表示概念是否属于分类cj,取值为0或1,表示概念是否属于分类cj,表示测试概念和周围概念的相似程度,使用(8)提到的空间向量模型相似公式来表示,bj是分类的阀值,需要通过反复的调试才能得到较好的值;步骤10:用一部分测试类型作为待分类类型,按照分类阶段的步骤对上一步骤得到的分类器进行测试,优化分类器的性能;学习阶段结束;二、在分类阶段:步骤1:输入待分类广告类型(集);步骤2:按学习阶段相同的方法对待分类广告进行预处理;步骤3:根据学习阶段建立的属性集为待分类广告建立索引,得到广告类型权重向量,见学习阶段步骤7;步骤4:计算待分类广告的权重向量;步骤5:按分类器进行自动分类,见学习阶段步骤9得到分类结果;分类阶段结束。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海唯客网广告传播有限公司,未经上海唯客网广告传播有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/200610028305.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种沥青烟气焚烧炉
- 下一篇:一种全自动灯泡生产机