[发明专利]一种快速识别大量电商商品品牌的方法在审
| 申请号: | 201810584737.0 | 申请日: | 2018-06-08 |
| 公开(公告)号: | CN108763220A | 公开(公告)日: | 2018-11-06 |
| 发明(设计)人: | 姜明鲁 | 申请(专利权)人: | 山东汇贸电子口岸有限公司 |
| 主分类号: | G06F17/27 | 分类号: | G06F17/27;G06Q30/06 |
| 代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 阚恭勇 |
| 地址: | 250100 山东省济南市*** | 国省代码: | 山东;37 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 快速识别 商品品牌 数据处理领域 品牌信息 人工标注 分词 品牌 匹配 学习 节约 | ||
本发明提供一种快速识别大量电商商品品牌的方法,属于大数据处理领域,本发明通过商品标题含有的品牌信息,直接通过分词的方法直接进行匹配;再通过深度学习,消除特殊品牌的特殊含义。通过深度学习,省掉了大量的人工标注,节约了时间。
技术领域
本发明涉及大数据处理技术,尤其涉及一种快速识别大量电商商品品牌的方法。
背景技术
随着互联网的普及,网络购物的优点更加突出,日益成为一种重要的购物形式,淘宝、天猫、京东等电商平台的兴起,网络购物已经成为基本的购物途径之一,由此产生的大量商品数据则包含巨大的价值,为许多大数据研究人员所关注。
网购逐渐被越来越多的人认可,网购流程的网址导航类,主要涵盖生活的方方面面网址,购物等,人们可以通过这些网址导航到相应的网站去购物消费。
商品寻找是网上购物比较麻烦的事情,有人说搜索,但大多数搜索引擎有两个缺点,局限性和趋利性,局限性指只有被搜索引擎抓到的信息才有显示;趋利性指竞价排名,打广告的并不一定就是好的东西,不打广告的你可能点击不到。而且搜索排名可以弄虚作假,难免中套。购物寻找官方品牌商品可以浏览官方网店大全网站。
由于商品的品牌是多数人通过搜索查询的重要的关键词之一,所有从大量商品标题中识别商品的品牌成了一个新的需求。
发明内容
为了解决以上技术问题,本发明提出了一种快速识别大量电商商品品牌的方法,在大量商品名称中准确判断某商品的所属品牌,解决一些商品数据没有品牌要素的问题。
本发明的技术方案是:
本方法采取多种技术融合而成,包含中文分词技术、深度学习等。
一种快速识别大量电商商品品牌的方法,通过商品标题含有的品牌信息,直接通过分词的方法直接进行匹配;再通过深度学习,消除特殊品牌的特殊含义。
主要包括如下几个步骤:
步骤1:首先从权威网站寻找商标和品牌以及品牌的简称等品牌数据,入库作为词典。
步骤2:将所有需要识别品牌的商品标题入库
步骤3:使用基于词典的分词器,对步骤2中入库的商品进行分词,匹配品牌词典,如果单一匹配成功则商品品牌要素补充完成。
步骤4:对于步骤3中没有识别出品牌的商品,抽取一定量数据使用人工手段判断品牌,并补充品牌词典,且将这些人工标注的结果作为训练集。
步骤5:使用开源的TensorFlow框架,对积累到一定量的训练集进行深度学习训练,模型训练完后成后使用模型对步骤3中未识别的商品进行识别。
本发明的有益效果是
通过商品标题含有的品牌信息,直接通过分词的方法直接进行匹配,可以快速有效的避免歧义问题,比如某品牌包含另一品牌的情况。再通过深度学习,消除了一些特殊品牌的特殊含义,比如深蓝牌,也可以作为一种商品的颜色描述。综合来看,通过上述几步,词典可以逐步完善,通过深度学习,省掉了大量的人工标注,节约了80%的时间。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
本发明的一种快速识别大量电商商品品牌的方法,
主要包括如下几个步骤:
步骤1:首先从权威网站寻找商标和品牌以及品牌的简称等品牌数据,入库作为词典。
步骤2:将所有需要识别品牌的商品标题入库
步骤3:使用基于词典的分词器,对步骤2中入库的商品进行分词,匹配品牌词典,如果单一匹配成功则商品品牌要素补充完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东汇贸电子口岸有限公司,未经山东汇贸电子口岸有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810584737.0/2.html,转载请声明来源钻瓜专利网。





