[发明专利]一种基于贝叶斯模型的商品编码分类方法以及系统有效
申请号: | 201711086209.4 | 申请日: | 2017-11-07 |
公开(公告)号: | CN107704892B | 公开(公告)日: | 2019-05-17 |
发明(设计)人: | 庞胜民;王涛;孙科武;林文辉;高哲;张浩 | 申请(专利权)人: | 宁波爱信诺航天信息有限公司;航天信息股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F17/27;G06F16/9535;G06N20/00 |
代理公司: | 宁波高新区核心力专利代理事务所(普通合伙) 33273 | 代理人: | 袁丽花 |
地址: | 315000 浙江省宁波市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于贝叶斯模型的商品编码分类方法以及系统。针对商品名信息的短文本特征所带来的稀疏性和上下文缺失问题,本申请对分词后的稀疏性词语采用同义词扩展技术,通过外部搜索引擎技术增加其词语同义度;进而,本申请采用贝叶斯模型计算商品名的词序列与编码类目之间的条件概率,从而得到其贝叶斯编码分类模型,并以训练好的模型为输入的商品名提供商品编码类目的预测。 | ||
搜索关键词: | 一种 基于 贝叶斯 模型 商品 编码 分类 方法 以及 系统 | ||
【主权项】:
1.一种基于贝叶斯模型的商品编码分类方法,其特征在于,包括以下步骤:样本集构建步骤,从历史数据当中,获得包含商品名信息与对应商品编码类目的样本数据,汇合为样本集;分词处理步骤,对样本集当中原始商品名信息基于语法树分词,并参照停用词表去除商品名信息当中的停用词,形成词序列;同义词扩展步骤,对于所述词序列中的词,根据互联网语料库的搜索扩展其同义词;并且对扩展后的词序列通过序列标注法确定中心词,为词序列中的词赋予不同的权重,获得具有权重的词序列;贝叶斯模型训练步骤,基于贝叶斯公式,计算商品名归属于各个编码类目的条件概率,建立贝叶斯编码分类模型;分类预测步骤,对于待预测编码类目的商品名,执行分词、去除停用词和同义词扩展处理,调用上述贝叶斯编码分类模型,查询与该商品名对应的各个类目出现的条件概率,取最大概率的类目作为对商品名分类的预测结果;其中,贝叶斯模型训练步骤包括:(1)统计样本集数据中的每个类目的频率,即类ci占总类别C的比重:
(2)计算在样本集数据当中商品名词序列W出现的概率p(W):
其中,M是样本中的总词数,词wi为词序列中的词,ti为同义词扩展过程中扩展的同义词,
和
分别是词wi和ti出现的次数;θi和
分别表示词wi和ti各自对应的权重值;(3)计算条件概率,编码类目c中出现词序列W概率p(W|ci):
其中,Mc是样本集的类目c中的总词数,
和
是类目c中词wi和ti出现的次数;(4)结合商品名所属的行业信息,计算出现某个商品名W时其归属于类目c的条件概率p(ci|W,D):
其中,![]()
其中D是行业描述语义信息;绝对值表示的是D的集合的值,d是对行业语义信息进行分词后的词序列集合。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波爱信诺航天信息有限公司;航天信息股份有限公司,未经宁波爱信诺航天信息有限公司;航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711086209.4/,转载请声明来源钻瓜专利网。