[发明专利]差评信息分类方法及装置、存储介质、电子设备在审
申请号: | 201710840257.1 | 申请日: | 2017-09-15 |
公开(公告)号: | CN110019781A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 车天博 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q30/00 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类词 预设 短句 信息分类 分类 数据数据处理 存储介质 电子设备 分类结果 不均衡 样本 | ||
1.一种差评信息分类方法,其特征在于,包括:
获取多条差评信息并利用第一标识将各条所述差评信息划分为一个或多个短句;
判断各所述短句中是否包括预设分类词;
在判断各所述短句中包括所述预设分类词时,根据所述预设分类词对所述差评信息进行分类。
2.根据权利要求1所述的差评信息分类方法,其特征在于,利用第一标识将各条所述差评信息划分为一个或多个短句包括:
判断各条所述差评信息中是否包括预设标识;
在判断各条所述差评信息中包括所述预设标识后,在所述预设标识处利用第一标识将各条所述差评信息划分为一个或多个短句。
3.根据权利要求1所述的差评信息分类方法,其特征在于,所述预设分类词包括包装破损、包装简陋、包装脏污、商品本身问题、其他包装差评以及非包装差评中的多种。
4.根据权利要求3所述的差评信息分类方法,其特征在于,在判断各所述短句中是否包括预设分类词之前,所述差评信息分类方法还包括:
对各所述短句进行去噪处理。
5.根据权利要求4所述的差评信息分类方法,其特征在于,对各所述短句进行去噪处理包括:
利用词缀以及计算词相似度的方法从各所述短句中挖掘出多个疑似目标词;
判断各所述疑似目标词出现的次数是否大于预设次数;
在判断各所述疑似目标词出现的次数大于所述预设次数时,确定各所述疑似目标词为目标词;
判断各所述短句中是否包含各所述目标词;并在判断各所述短句中不包含任一所述目标词时,删除所述短句。
6.一种差评信息分类装置,其特征在于,包括:
短句划分模块,用于获取多条差评信息并利用第一标识将各条所述差评信息划分为一个或多个短句;
判断模块,用于判断各所述短句中是否包括预设分类词;
分类模块,用于在判断各所述短句中包括所述预设分类词时,根据所述预设分类词对所述差评信息进行分类。
7.根据权利要求6所述的差评信息分类装置,其特征在于,利用第一标识将各条所述差评信息划分为一个或多个短句包括:
判断各条所述差评信息中是否包括预设标识;
在判断各条所述差评信息中包括所述预设标识后,在所述预设标识处利用第一标识将各条所述差评信息划分为一个或多个短句。
8.根据权利要求6所述的差评信息分类装置,其特征在于,所述预设分类词包括包装破损、包装简陋、包装脏污、商品本身问题、其他包装差评以及非包装差评中的多种。
9.根据权利要求8所述的差评信息分类装置,其特征在于,所述差评信息分类装置还包括:
去噪处理模块,用于对各所述短句进行去噪处理。
10.根据权利要求9所述的差评信息分类装置,其特征在于,对各所述短句进行去噪处理包括:
利用词缀以及计算词相似度的装置从各所述短句中挖掘出多个疑似目标词;
判断各所述疑似目标词出现的次数是否大于预设次数;
在判断各所述疑似目标词出现的次数大于所述预设次数时,确定各所述疑似目标词为目标词;
判断各所述短句中是否包含各所述目标词;并在判断各所述短句中不包含任一所述目标词时,删除所述短句。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-5任一项所述的差评信息分类方法。
12.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-5任一项所述的差评信息分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710840257.1/1.html,转载请声明来源钻瓜专利网。