[发明专利]评论标签挖掘方法及装置在审
| 申请号: | 202111318293.4 | 申请日: | 2021-11-09 |
| 公开(公告)号: | CN116108131A | 公开(公告)日: | 2023-05-12 |
| 发明(设计)人: | 陆靖桥 | 申请(专利权)人: | 广州力挚网络科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/211;G06F40/289;G06F40/30 |
| 代理公司: | 北京汇鑫君达知识产权代理有限公司 11769 | 代理人: | 黄启法 |
| 地址: | 510000 广东省广州市天*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 评论 标签 挖掘 方法 装置 | ||
本申请涉及一种评论标签挖掘方法及装置,该方法通过构建语料词库及构建语料标签库,输入语料词库及语料标签库至深度卷积网络训练得到评论分类模型。预处理得到评论文本序列,以步长不同的两种窗口对评论文本序列滑窗,得到待预测评论短句,根据选取概率值最大的标签作为当前待预测评论短句的匹配标签,最后输出与评论文本输出相匹配的匹配标签。由于采用聚类方式构建语料标签库,能够降低标签标注的运算工作量。采用不同步长的窗口对评论文本序列滑窗,选取概率值最大的标签作为当前待预测评论语句的匹配标签,匹配标签能够更加匹配当前待预测评论语句,进而让评论文本输出的匹配标签能够更加符合当前评论文本最真实的语义表示。
技术领域
本申请涉及标签挖掘技术领域,尤其涉及一种评论标签挖掘方法及装置。
背景技术
APP(Application,应用程序)产品的评论语料是用户对于APP产品的一些使用心得及体验反馈,快速从评论语料中提取出用户平时使用时的关键信息,根据关键信息挖掘出相匹配的标签,标签代表当前评论语料的语义表示,上述方式能够让新注册的用户快速了解以及掌握APP产品,极大提升了新用户的使用体验。
相关技术中根据评论语料挖掘出标签的方法很多,但这些标签挖掘方法都存在缺陷:
1、前期标注标签的工作量大,无法快速构建与评论语料相关的标签数据库;
2、挖掘出的标签无法向用户传达当前评论语料的最真实的语义表示,即挖掘出标签与当前评论语料匹配度不高。
发明内容
为解决或部分解决相关技术中存在的问题,本申请提供一种评论标签挖掘方法及装置,降低前期标注标签的工作量以及快速挖掘出高匹配度的标签。
本申请的第一方面提供了一种评论标签挖掘方法,包括:
构建语料词库;
根据所述语料词库采用聚类方式构建语料标签库;
把所述语料词库及语料标签库输入至深度卷积网络,训练得到评论分类模型;
获取评论文本,对所述评论文本进行断句,得到评论文本序列;
以步长不同的两种窗口对所述评论文本序列滑窗,得到若干待预测评论短句;
输入所述评论分类模型,利用所述评论分类模型输出与每一所述待预测评论短句相匹配的所有标签,选取概率值最大的所述标签作为当前所述待预测评论短句的匹配标签;
让所述评论文本输出相匹配的若干所述匹配标签。
优选的,所述构建语料词库包括:
获取全量训练评论文本;
清洗所述全量训练评论文本;
采用分词工具对所述全量训练评论文本进行分词,得到若干训练词;
将每一所述训练词输入至开源词向量模型内,利用所述开源词向量模型输出每一所述训练词所对应的词向量,构建出所述语料词库。
优选的,所述清洗所述全量训练评论文本包括:
剔除掉所述全量训练评论文本内的所有的非正常字符;
将所述全量训练评论文本内的非中文字符转换成中文字符;
改写所述全量训练评论文本内的连续重复词。
优选的,所述根据所述语料词库采用聚类方式构建语料标签库包括:
获取所述全量训练评论文本;
按照预置拆句规则将所述全量训练评论文本拆解成若干训练短句;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州力挚网络科技有限公司,未经广州力挚网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111318293.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:苯甲酰胺类衍生物及其用途
- 下一篇:一种电子膨胀阀





