[发明专利]一种基于半监督CBOW的用户搜索词主题分类的方法有效
申请号: | 201410286532.6 | 申请日: | 2014-06-25 |
公开(公告)号: | CN104036010B | 公开(公告)日: | 2017-05-24 |
发明(设计)人: | 贺樑;杨河彬;徐晓枫;黄保荃;李明耀;倪敏杰 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海麦其知识产权代理事务所(普通合伙)31257 | 代理人: | 董红曼 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于半监督CBOW的用户搜索词主题分类的方法,其特点是运用半监督CBOW算法对大量未标注和部分已标注的搜索词建立含有语义、语法和类别信息的词向量模型,利用词向量模型的线性组合成查询向量,然后根据查询向量进行用户搜索词的主题分类。本发明与现有技术相比不仅能够获取语法语义信息,还能从少量的带标注的文本中获得类别信息,使得用户搜索词向量在空间上面不同类别的数据分得更加开,提高了分类的准确性,有效解决了用户查询文本短的问题,方法简便,准确性好。 | ||
搜索关键词: | 一种 基于 监督 cbow 用户 搜索词 主题 分类 方法 | ||
【主权项】:
一种基于半监督CBOW的用户搜索词主题分类的方法,其特征在于运用半监督CBOW算法对大量未标注和部分已标注的搜索词建立含有语义、语法和类别信息的词向量模型,利用词向量模型的线性组合成查询向量,然后根据查询向量进行用户搜索词的主题分类,具体按下述步骤进行:(一)、 词向量模型的建立将大量未标注和部分已标注的用户搜索词中大于一定阈值的词汇运用半监督CBOW算法建立一个d维实数空间的词向量模型;所述已标注的搜索词为人工标注或规则标注的搜索词;所述半监督CBOW算法采用由输入层、隐含层和输出层构成的三层神经网络语言模型,输入层将上下文词以向量形式输入隐含层,隐含层将输入的这些词的词向量进行累加;所述神经网络语言模型采用下述(a)式进行优化,并采用随机梯度下降法对神经网络进行最大化求解更新:(a)其中:为训练的用户搜索词中所观察到的词及其上下文的集合;为给定词在上下文出现的概率,其中是给定词的左边个词与右边词构成其上下文信息;为所有训练数据集当中有分类的集合;为上下文属于类别的概率;为类别信息及上下文的最大化目标比例;(二)、分类器的建立由词向量模型对已标注的用户搜索词采用向量加法得到已经标注的搜索词类别及其维向量,并以维向量作为搜索词的特征采用SVM或逻辑回归分类算法得到分类器;所述向量加法由下述(b)式计算:(b)其中:为用户搜索的d维向量,其中由个词组成;(三)、新搜索词的分类由词向量模型对新用户搜索词按(b)式进行向量加法得到新搜索词向量,然后以该向量特征由上述建立的分类器进行主题分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410286532.6/,转载请声明来源钻瓜专利网。