[发明专利]一种商品分类方法及系统在审
申请号: | 201810292145.1 | 申请日: | 2018-04-03 |
公开(公告)号: | CN108595418A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 赖秀娟;石谢彬 | 申请(专利权)人: | 上海透云物联网科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06Q30/06 |
代理公司: | 上海大邦律师事务所 31252 | 代理人: | 董颖芳;刘燕芝 |
地址: | 200070 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品分类 特征值信息 分词 向量 词频 分类 集合 相似度比对 运算速度快 测量向量 可辨识度 描述内容 特征信息 语意 余弦 转化 词汇 合并 | ||
1.一种商品分类方法,其特征在于,该方法包括:
根据待分类商品名称爬取该商品第一特征值信息,并将该商品第一特征值信息进行自动分词;
根据商品分类爬取该商品分类下的商品第一特征值信息,并将该商品第一特征值信息进行自动分词;
将根据待分类商品名称爬取的商品第一特征值信息的分词与根据商品分类爬取的商品第一特征值信息的分词进行合并,形成一个集合;
计算待分类商品第一特征值信息的每个分词在集合中的词频,并将其转化为向量A;
计算商品分类下的商品第一特征值信息的每个分词在集合中的词频,并将其转化为向量B;
通过测量向量A与向量B之间表示相差夹角大小的余弦值来判断待分类商品和商品分类是否相似;
若向量A与向量B之间表示相差夹角大小的余弦值大于预先设定的第一阈值,则确定待分类商品与商品分类相似,将待分类商品归入该商品分类下。
2.根据权利要求1所述的方法,其特征在于,所述自动分词采用结巴中文自动分词。
3.根据权利要求1或2所述的方法,其特征在于,所述商品第一特征值信息为商品描述特征值信息。
4.根据权利要求1所述的方法,其特征在于,若向量A与向量B之间表示相差夹角大小的余弦值小于预先设定的第一阈值,则还需进行下述步骤:
根据待分类商品名称爬取该商品第二特征值信息,并将该商品第二特征值信息进行自动分词;
根据商品分类爬取不同商品分类下的商品第二特征值信息,将爬取的不同商品分类下的商品第二特征值信息进行自动分词,并集合为一个数据集;
计算每个商品分类下商品第二特征值信息的分词在数据集中的词频,通过TFIDF算法得到每个词语TF-IDF值的向量;
计算待分类商品第二特征值信息的每个分词在数据集中的词频,通过TFIDF算法得到每个词语TF-IDF值的向量;
通过测量待分类商品第二特征值信息的TF-IDF值向量分别与不同商品分类的商品第二特征值信息的TF-IDF值向量间相差夹角大小的余弦值来判断待分类商品和商品分类是否相似;
选取测量到的最大余弦值,当且仅当该余弦值大于预先设定的第二阈值时,则确定待分类商品与最大余弦值相对应的商品分类相似,将待分类商品归入该商品分类下。
5.根据权利要求4所述的方法,其特征在于,所述商品第二特征值信息为商品详情特征值信息。
6.根据权利要求4所述的方法,其特征在于,若选取测量到的最大余弦值小于预先设定的第二阈值,则还需进行下述步骤:
根据待分类商品名称爬取该商品第三特征值信息,将爬取的商品第三特征值信息进行自动分词,并集合生成为字典;
将字典作为训练样本的语料库,为每个词随机生成一个N维的独热码向量,并将训练样本中目标词的前面和后面的M个词向量作为Word2Vec原理中CBOW模型的输入;
对所述输入层阶段所有向量做求和累加取平均的操作,以确定训练样本中每个目标词的词向量,并将所述目标词的词向量当作是训练的模型;
将商品分类根据独热码编码转换成向量,并将该向量作为输入用于已建立的训练模型,然后判断该向量与已建立训练模型中目标词的词向量是否相似;
若上述商品分类词向量与目标词的词向量间表示相差夹角大小的余弦值大于预先设定的第三阈值,则确定待分类商品与商品分类相似,将待分类商品归入该商品分类下;
其中,M、N均为大于等于1的正整数。
7.根据权利要求6所述的方法,其特征在于,所述商品第三特征值信息为商品描述和商品详情特征值信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海透云物联网科技有限公司,未经上海透云物联网科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810292145.1/1.html,转载请声明来源钻瓜专利网。