[发明专利]一种基于文本的商品分类处理方法及其系统在审
申请号: | 201310701215.1 | 申请日: | 2013-12-18 |
公开(公告)号: | CN103646343A | 公开(公告)日: | 2014-03-19 |
发明(设计)人: | 王冬杰;朱勇勇 | 申请(专利权)人: | 世纪禾光科技发展(北京)有限责任公司 |
主分类号: | G06Q30/02 | 分类号: | G06Q30/02;G06F17/27 |
代理公司: | 北京庆峰财智知识产权代理事务所(普通合伙) 11417 | 代理人: | 刘元霞 |
地址: | 100088*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 商品 分类 处理 方法 及其 系统 | ||
技术领域
本发明涉及互联网电子商务领域,尤其涉及利用计算机实现基于文本的商品分类处理方法及其系统。
背景技术
互联网发展迅猛,越来越多的商品通过电子商务的方式进行销售。快速、准确的对所出售的商品进行类别的划分显得更加的重要。商品分类是为了方便消费者购买的需要,将商品选择适当的分类标志,系统地逐级划分大类,中类,小类以至品种、花色、规格等的过程。准确的分类有利于电子商务企业更有序组织管理商品。而具体到电子商务网站,商品分类就是把一些新上产品划归为已有某个所属类别的过程。
在目前的互联网电子商务网站,尚有很多商品分类系统还是通过网站编辑或者网络卖家自身进行手工分类。这样的方式存在以下几个弊端:1,大量的商品分类工作消耗了过多的人力成本。2,随着网站规模的不断膨胀,由于人工选择分类速度缓慢,导致很多商品不能及时上传到网站,从而错过了交易机会。3,人工分类会因为不同人对商品的特征的不同理解从而造成分类结果的不一致。
发明内容
为解决上述现有技术所存在的问题,本发明提出了一种基于文本的商品分类处理方法,以及建立在此方法上的系统。进一步地提出了通过电子商务网站站内的现有商品相关数据,运用分词系统和朴素贝叶斯分类算法进行分类,再辅助人工校对进行优化的商品分类系统。本发明的方法和系统运用机器学习的方式,分类速度快,适合大容量电子商务网站的商品分类处理。
本发明采用如下技术方案:从商品数据库提取文本格式商品数据,对商品数据进行分组并进行特征提取,利用训练文件依据概率模型构造出分类器,对商品数据进行分类。
优选地,其中商品分类数据包括:类目信息和商品信息。
其中类目信息包括:类目ID、类目名称、父类目ID。
商品信息包括:商品ID、商品描述、商品所属类目号。
优选地,本发明进一步包括以下步骤:在对商品数据进行分组之前对商品数据进行数据校验。
优选地,其中对商品数据进行特征提取包括:对商品描述进行机器分词处理,形成包含有效词汇的待分类项。
优选地,其中对商品数据进行分组包括将商品数据按比例随机分组为训练文件和测试文件。
优选地,其中概率模型为朴素贝叶斯变换,朴素贝叶斯变换计算式为:
贝叶斯全概率公式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于世纪禾光科技发展(北京)有限责任公司,未经世纪禾光科技发展(北京)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310701215.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:人造血管成型机
- 下一篇:变压器绝缘套管的底座