[发明专利]一种基于文本的商品分类处理方法及其系统在审

专利信息
申请号: 201310701215.1 申请日: 2013-12-18
公开(公告)号: CN103646343A 公开(公告)日: 2014-03-19
发明(设计)人: 王冬杰;朱勇勇 申请(专利权)人: 世纪禾光科技发展(北京)有限责任公司
主分类号: G06Q30/02 分类号: G06Q30/02;G06F17/27
代理公司: 北京庆峰财智知识产权代理事务所(普通合伙) 11417 代理人: 刘元霞
地址: 100088*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 文本 商品 分类 处理 方法 及其 系统
【说明书】:

技术领域

发明涉及互联网电子商务领域,尤其涉及利用计算机实现基于文本的商品分类处理方法及其系统。

背景技术

互联网发展迅猛,越来越多的商品通过电子商务的方式进行销售。快速、准确的对所出售的商品进行类别的划分显得更加的重要。商品分类是为了方便消费者购买的需要,将商品选择适当的分类标志,系统地逐级划分大类,中类,小类以至品种、花色、规格等的过程。准确的分类有利于电子商务企业更有序组织管理商品。而具体到电子商务网站,商品分类就是把一些新上产品划归为已有某个所属类别的过程。

在目前的互联网电子商务网站,尚有很多商品分类系统还是通过网站编辑或者网络卖家自身进行手工分类。这样的方式存在以下几个弊端:1,大量的商品分类工作消耗了过多的人力成本。2,随着网站规模的不断膨胀,由于人工选择分类速度缓慢,导致很多商品不能及时上传到网站,从而错过了交易机会。3,人工分类会因为不同人对商品的特征的不同理解从而造成分类结果的不一致。

发明内容

为解决上述现有技术所存在的问题,本发明提出了一种基于文本的商品分类处理方法,以及建立在此方法上的系统。进一步地提出了通过电子商务网站站内的现有商品相关数据,运用分词系统和朴素贝叶斯分类算法进行分类,再辅助人工校对进行优化的商品分类系统。本发明的方法和系统运用机器学习的方式,分类速度快,适合大容量电子商务网站的商品分类处理。

本发明采用如下技术方案:从商品数据库提取文本格式商品数据,对商品数据进行分组并进行特征提取,利用训练文件依据概率模型构造出分类器,对商品数据进行分类。

优选地,其中商品分类数据包括:类目信息和商品信息。

其中类目信息包括:类目ID、类目名称、父类目ID。

商品信息包括:商品ID、商品描述、商品所属类目号。

优选地,本发明进一步包括以下步骤:在对商品数据进行分组之前对商品数据进行数据校验。

优选地,其中对商品数据进行特征提取包括:对商品描述进行机器分词处理,形成包含有效词汇的待分类项。

优选地,其中对商品数据进行分组包括将商品数据按比例随机分组为训练文件和测试文件。

优选地,其中概率模型为朴素贝叶斯变换,朴素贝叶斯变换计算式为:

贝叶斯全概率公式p(C|F1,...,Fn)=p(C)p(F1,...,Fn|C)p(F1,...,Fn).,]]>其中C表示类目集合,Fi表示商品描述中的一个词项;P(C|F1,...,Fn)为后验概率;p(F1,...,Fn|C)为似然函数;p(F1,...,Fn)为证据;利用条件独立假设Fi为条件独立得到以下概率模型

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于世纪禾光科技发展(北京)有限责任公司,未经世纪禾光科技发展(北京)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310701215.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top