[发明专利]一种商品分类方法及系统在审
申请号: | 201810292145.1 | 申请日: | 2018-04-03 |
公开(公告)号: | CN108595418A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 赖秀娟;石谢彬 | 申请(专利权)人: | 上海透云物联网科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30;G06Q30/06 |
代理公司: | 上海大邦律师事务所 31252 | 代理人: | 董颖芳;刘燕芝 |
地址: | 200070 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品分类 特征值信息 分词 向量 词频 分类 集合 相似度比对 运算速度快 测量向量 可辨识度 描述内容 特征信息 语意 余弦 转化 词汇 合并 | ||
本发明涉及一种商品分类方法,包括根据待分类商品名称爬取该商品特征值信息,并将商品特征值信息进行自动分词;根据商品分类爬取该商品分类下的商品特征值信息,并将商品特征值信息进行自动分词;将上述所有分词进行合并,形成一个集合;计算待分类商品特征值信息的每个词在集合中的词频,并将其转化为向量A;计算商品分类下的商品特征值信息的每分词在集合中的词频,并将其转化为向量B;通过测量向量A与向量B之间表示相差的夹角大小的余弦值来判断待分类商品和商品分类是否相似。本发明根据现有商品名称和商品分类的特征信息,在原有词汇上扩展其商品的描述内容,进行语意相似度比对,以提高商品名称分类的可辨识度,运算速度快,效率高。
技术领域
本发明涉及电子商务平台技术领域,尤其涉及一种商品分类方法及系统。
背景技术
商品分类是指根据一定的管理目的,为满足商品生产、流通、消费活动的全部或部分需要,将管理范围内的商品集合总体,以所选择的适当的商品基本特征作为分类标志,逐次归纳为若干个范围更小、特质更趋一致的子集合体(类目),例如大类、中类、小类、细类,直至品种、细目等,从而使该范围内所有商品得以明确区分与体系化的过程。
商品分类有助于商业经营管理、项目实施、分析和了解商品特性、商品流通等。一般零售商的商品名称高达上百万笔数据,如果利用人工进行商品分类会非常耗时,且人工分类也会因个人主观意识认知不同导致分类不一致的状况发生(例如:西红柿是属于水果还是蔬菜),倘若商品分类遇到变化,人工又必须重新进行分类,并不利于日益快速竞争的时代。
发明内容
针对上述现有技术的缺点,本发明的目的是提供一种基于人工智能的商品分类方法及系统,提高商品分类的可辨识度,运算速度快,效率高,以解决现有利用人工进行商品分类耗时,且因个人主观意识认知不同导致分类不一致的问题。
本发明实施例提供的一种商品分类方法,该方法包括:
根据待分类商品名称爬取该商品第一特征值信息,并将该商品第一特征值信息进行自动分词;
根据商品分类爬取该商品分类下的商品第一特征值信息,并将该商品第一特征值信息进行自动分词;
将根据待分类商品名称爬取的商品第一特征值信息的分词与根据商品分类爬取的商品第一特征值信息的分词进行合并,形成一个集合;
计算待分类商品第一特征值信息的每个分词在集合中的词频,并将其转化为向量A;
计算商品分类下的商品第一特征值信息的每个分词在集合中的词频,并将其转化为向量B;
通过测量向量A与向量B之间表示相差夹角大小的余弦值来判断待分类商品和商品分类是否相似;
若向量A与向量B之间表示相差夹角大小的余弦值大于预先设定的第一阈值,则确定待分类商品与商品分类相似,将待分类商品归入该商品分类下。
进一步地,上述方法中,所述自动分词采用结巴中文自动分词。
进一步地,上述方法中,所述商品第一特征值信息为商品描述特征值信息。
进一步地,上述方法中,若向量A与向量B之间表示相差夹角大小的余弦值小于预先设定的第一阈值,则还需进行下述步骤:
根据待分类商品名称爬取该商品第二特征值信息,并将该商品第二特征值信息进行自动分词;
根据商品分类爬取不同商品分类下的商品第二特征值信息,将爬取的不同商品分类下的商品第二特征值信息进行自动分词,并集合为一个数据集;
计算每个商品分类下商品第二特征值信息的分词在数据集中的词频,通过TFIDF算法得到每个词语TF-IDF值的向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海透云物联网科技有限公司,未经上海透云物联网科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810292145.1/2.html,转载请声明来源钻瓜专利网。