[发明专利]一种中文分词网店商品搜索系统的设计在审
申请号: | 201611160522.3 | 申请日: | 2016-12-15 |
公开(公告)号: | CN108228626A | 公开(公告)日: | 2018-06-29 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 长沙云昊信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06Q30/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 410011 湖南省长沙市芙蓉区朝*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词条 商品搜索系统 中文分词 字典 输入关键词 商品信息 搜索过程 原始数据 算法 匹配 存储 自动化 | ||
本系统是一个对网店商品的原始数据进行加工处理,集成一个存储所有商品信息的词条字典的系统,本系统通过结合全切分算法,以此实现对输入关键词的完全切分,并通过和词条字典的匹配得到所有候选的词条组合,使中文分词网店商品搜索系统完美化、自动化,减少了用户在搜索过程中不必要的麻烦。
技术领域
一种中文分词网店商品搜索系统的设计,其技术领域涉及计算机技术、互联网技术和电子商务的应用。
背景技术
随着电子商务的急速发展,网店的在线商品的数量、种类急剧的增加,人们的网购过程往往在无休止的搜索和寻找商品的过程中度过,既浪费了时间,又损失了精力,商品搜索系统越来越重要,如何实现快速、精确的搜索,“分词”是其中最为关键的要素,本系统构建了一种中文分词的存储商品信息的词条字典,可以快速、精准的帮助用户搜索到商品。
发明内容
系统的功能模块设计
系统的功能模块设计可以分为词表初始化模块、全切分模块、Filter模块、权值计算模块;
词表初始化模块,该模块是系统功能模块最重要的模块,它又可以分为4部分。
1. 网店商品的类目管理,电子商务网站的商品种类十分巨大,为了方便管理,通常将类目系分为3个层次,类目、商品分类、属性,所有类目采用具有树形关系的存储结构,简称 CPV 树,CPV 树可通过某些自动化算法生成,也可基于人工方法生成。
2. 词条数据结构,网店中的 CPV 树以文本形式存储,其主要信息包含节点ID、节点类型、节点级别、父节点ID、子节点ID、类目ID、类目名称、属性ID、属性名称、属性值ID、属性值名称、类目属性级别、状态标记串等。
3. CPV 树节点数据结构,因为系统在成功匹配后还会存在一些留有歧义的词条,所以需要一个数据结构来保存所有CPV 树的所有节点信息。
4. 词表初始化,词表的构造是本文分词算法的前提,它可以分为两个过程,首先,读入含冗余信息的 CPV 树信息,然后,对 CPV 树信息进行精简处理,将其转换成一个个词条。
全切分模块,该模块首先接收用户输入字符串,然后选择切分点切分字符串,再进行词典匹配,如果匹配成功,保留切分结果,如果匹配不成功,则不保留切分结果,继续进行下一次切分,直至完成切分成功。
Filter模块,对用户输入的字符串进行切分,并在词条词典中匹配会得到若干类目词条和属性词条,将这些词条相互组合后,会有一些歧义和不合理的组合,需要将其排除,该模块就是为了过滤那些完全不合理的组合,以提高分词系统的准确率的设计的。
权值计算模块,当词条组合经过过滤,已经大大提高了搜索结果的准确性,但过滤后的词条数目较多,排列混乱,还是不利于用户的直接应用,因此,为了进一步优化分词结果,选出最佳的词条组合,需要一个权重计算的方法,其主要信息包括三个方面,分出词的匹配度、分词中字的匹配度以及词条权重。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长沙云昊信息科技有限公司,未经长沙云昊信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611160522.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种推送消息处理方法及装置
- 下一篇:用于生成网页的方法和装置以及终端设备