[发明专利]一种基于Mongodb和HanLP的电商舆情分析方法及系统有效
| 申请号: | 201910907528.X | 申请日: | 2019-09-24 |
| 公开(公告)号: | CN110633312B | 公开(公告)日: | 2022-03-25 |
| 发明(设计)人: | 王华杰 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
| 主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/248;G06F16/28;G06F16/31;G06F16/951;G06F40/289;G06Q30/02 |
| 代理公司: | 四川省成都市天策商标专利事务所(有限合伙) 51213 | 代理人: | 胡慧东 |
| 地址: | 621000 四*** | 国省代码: | 四川;51 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 基于 mongodb hanlp 舆情 分析 方法 系统 | ||
本发明公开了一种基于Mongodb和HanLP的电商舆情分析方法,包括以下步骤:A.数据搜集,B.针对不同商品类别,维护相应的目标提及点;C.周期性的从Mongodb原始集合中获取数据,以目标提及点为样本,使用HanLP对评论数据进行分词;D.对分词结果进行过滤,去除停词保留有效分词,并与目标提及点进行匹配;E.将匹配结果存储到Mongodb目标集合中,同时记录Mongodb原始集合中的数据处理进度;F.根据不同的查询条件从Mongodb目标集合获取数据进行数据统计分析,提供结果展示。本发明的方法能够对文本分词的结果进行提前干预,获取到需要的分词结果,提升舆情分析的准确率。
技术领域
本发明涉及舆情分析技术领域,特别涉及一种基于Mongodb和HanLP的电商舆情分析方法及系统。
背景技术
随着经济的发展和人民生活水平的不断提高,人们在网上购物逐渐成为常态。用户在网上购物之后留下的评论,成为后来者购物的重要参考;同时,对电商渠道和生产厂商来说,用户评论也是其改进服务与产品的重要依据,更具有特殊意义。
目前大多数舆情分析系统多采用关系型数据库作为数据存储平台,当面对海量的数据存储需求时,此类系统显然已不符合实际的应用场景,无法达到预期的效果。一些舆情分析系统的常见流程是,首先使用网络爬虫进行数据采集,然后对采集的大数据集合进行数据清理、数据转换,将多个数据源的数据格式进行统一并存储到Mysql关系型数据库中;接下来使用MapReduce分布式计算框架对海量数据进行分析与处理,再使用全文检索引擎进行检索以呈现最终结果。该方案会导致数据在不同的存储和计算系统中流动,流程复杂且占用大量的资源,因此运维成本极高;而且Mysql仅支持数据结构化存储,在数据量过大时其性能会急剧下降;同时,在全文检索中涉及文本分词,现有的普通分词技术无法按照指定的单元进行分词,其缺陷是切分结果不准确,不符合所需。整个系统资源利用率低,应用部署复杂且不容易拓展。
Mongodb是一种非关系型数据库,文档是其存储的基本数据单元。文档的存储格式是Bson,是一种类Json的一种二进制形式的存储格式,支持内嵌的文档对象和数组对象,易于存储非结构化数据且数据检索方便;Mongodb将热数据存在物理内存中,因此其读写速度非常快,在处理大量数据时相较于Mysql有较大优势。
HanLP是一种自然语言处理的工具包,其涵盖了自然语言处理的诸多方面,如中文分词、关键词提取、拼音转换等;其中,中文分词依据词图,词图指的是句子中所有词可能构成的图。如果一个词A的下一个词可能是B的话,那么A和B之间具有一条路径E(A,B)。一个词可能有多个后续,同时也可能有多个前驱,它们构成的图称作词图。基于Mongodb和HanLP构建的舆情分析系统,可以解决现有舆情分析系统的痛点。
发明内容
本发明的目的是克服上述背景技术中不足,提供一种基于Mongodb和HanLP的电商舆情分析方法及系统,针对目前传统方案系统架构复杂,并且文本分词结果不准确,不符合所需,以至于存在数据分析结果不准确问题,能够对文本分词的结果进行提前干预,获取到需要的分词结果,提升舆情分析的准确率。
为了达到上述的技术效果,本发明采取以下技术方案:
一种基于Mongodb和HanLP的电商舆情分析方法,可应用于电子设备系统内,包括以下步骤:
A.数据搜集,通过爬虫程序定时从若干电商渠道爬取用户评论数据并存储到Mongodb原始集合中;
B.针对不同商品类别,维护相应的目标提及点;如对于不同的家用电器中,则冰箱有冰箱的提及点,空调有空调的提及点;
C.周期性的从Mongodb原始集合中获取数据,以目标提及点为样本,使用HanLP对评论数据进行分词;分词结果会包含完整的单个提及点,即目标提及点会作为一个原子单元被切分出来,因此提及点越准确全面,最终的匹配结果也会越精确;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910907528.X/2.html,转载请声明来源钻瓜专利网。





