[发明专利]差评信息分类方法及装置、存储介质、电子设备在审
申请号: | 201710840257.1 | 申请日: | 2017-09-15 |
公开(公告)号: | CN110019781A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 车天博 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06Q30/00 |
代理公司: | 北京律智知识产权代理有限公司 11438 | 代理人: | 王辉;阚梓瑄 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类词 预设 短句 信息分类 分类 数据数据处理 存储介质 电子设备 分类结果 不均衡 样本 | ||
本公开是关于一种差评信息分类方法及装置,数据数据处理技术领域,该方法包括:获取多条差评信息并利用第一标识将各条所述差评信息划分为一个或多个短句;判断各所述短句中是否包括预设分类词;在判断各所述短句中包括所述预设分类词时,根据所述预设分类词对所述差评信息进行分类。该方法可以在判断各短句中包括预设分类词时,再根据预设分类词对差评信息进行分类,避免了分类任务存在样本不均衡导致分类结果不准确的问题,提升了差评信息分类的准确性。
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种差评信息分类方法、差评信息分类装置、计算机可读存储介质以及电子设备。
背景技术
在一些电子商务的物流系统中,为了可以保护商品在快递过程中不收损坏,可以给商品增加一层外包装。但是在物流运送的过程中,由于各种原因会对增加的外包装起到一定的破坏;因此用户在收到商品以后,会在对商品的评论中增加对商品外包装问题的差评。
商品外包装的差评极大的影响了用户的购物体验;因此为了提升用户体验,可以对关于包装的差评进行抽取并对抽取出的包装差评进行分类,并根据分类结果以改善用户反应的包装问题。
但是在差评中,只有极少数评论属于包装差评评论;例如,在250万条差评中,大约会有10万条关于包装差评;因此会导致分类任务存在样本不均衡问题,样本不均衡将会导致分类器的训练存在“偏好”,对样本多的类别给与更大的关注;因此不能根据分类结果很好的对外包装进行调整以提升用户体验。
因此,需要提供一种新的差评信息分类方法。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种差评信息分类方法、差评信息分类装置、计算机可读存储介质以及电子设备,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本公开的一个方面,提供一种差评信息分类方法,包括:
获取多条差评信息并利用第一标识将各条所述差评信息划分为一个或多个短句;
判断各所述短句中是否包括预设分类词;
在判断各所述短句中包括所述预设分类词时,根据所述预设分类词对所述差评信息进行分类。
在本公开的一种示例性实施例中,利用第一标识将各条所述差评信息划分为一个或多个短句包括:
判断各条所述差评信息中是否包括预设标识;
在判断各条所述差评信息中包括所述预设标识后,在所述预设标识处利用第一标识将各条所述差评信息划分为一个或多个短句。
在本公开的一种示例性实施例中,所述预设分类词包括包装破损、包装简陋、包装脏污、商品本身问题、其他包装差评以及非包装差评中的多种。
在本公开的一种示例性实施例中,在判断各所述短句中是否包括预设分类词之前,所述差评信息分类方法还包括:
对各所述短句进行去噪处理。
在本公开的一种示例性实施例中,对各所述短句进行去噪处理包括:
利用词缀以及计算词相似度的方法从各所述短句中挖掘出多个疑似目标词;
判断各所述疑似目标词出现的次数是否大于预设次数;
在判断各所述疑似目标词出现的次数大于所述预设次数时,确定各所述疑似目标词为目标词;
判断各所述短句中是否包含各所述目标词;并在判断各所述短句中不包含任一所述目标词时,删除所述短句。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710840257.1/2.html,转载请声明来源钻瓜专利网。