[发明专利]评论标签挖掘方法及装置在审
| 申请号: | 202111318293.4 | 申请日: | 2021-11-09 |
| 公开(公告)号: | CN116108131A | 公开(公告)日: | 2023-05-12 |
| 发明(设计)人: | 陆靖桥 | 申请(专利权)人: | 广州力挚网络科技有限公司 |
| 主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/35;G06F40/211;G06F40/289;G06F40/30 |
| 代理公司: | 北京汇鑫君达知识产权代理有限公司 11769 | 代理人: | 黄启法 |
| 地址: | 510000 广东省广州市天*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 评论 标签 挖掘 方法 装置 | ||
1.一种评论标签挖掘方法,其特征在于,包括:
构建语料词库;
根据所述语料词库采用聚类方式构建语料标签库;
把所述语料词库及语料标签库输入至深度卷积网络,训练得到评论分类模型;
获取评论文本,对所述评论文本进行断句,得到评论文本序列;
以步长不同的两种窗口对所述评论文本序列滑窗,得到若干待预测评论短句;
输入所述评论分类模型,利用所述评论分类模型输出与每一所述待预测评论短句相匹配的所有标签,选取概率值最大的所述标签作为当前所述待预测评论短句的匹配标签;
让所述评论文本输出相匹配的若干所述匹配标签。
2.根据权利要求1所述的评论标签挖掘方法,其特征在于,所述构建语料词库包括:
获取全量训练评论文本;
清洗所述全量训练评论文本;
采用分词工具对所述全量训练评论文本进行分词,得到若干训练词;
将每一所述训练词输入至开源词向量模型内,利用所述开源词向量模型输出每一所述训练词所对应的词向量,构建出所述语料词库。
3.根据权利要求2所述的评论标签挖掘方法,其特征在于,所述清洗所述全量训练评论文本包括:
剔除掉所述全量训练评论文本内的所有的非正常字符;
将所述全量训练评论文本内的非中文字符转换成中文字符;
改写所述全量训练评论文本内的连续重复词。
4.根据权利要求2所述的评论标签挖掘方法,其特征在于,所述根据所述语料词库采用聚类方式构建语料标签库包括:
获取所述全量训练评论文本;
按照预置拆句规则将所述全量训练评论文本拆解成若干训练短句;
利用所述开源词向量工具根据所述语料词库输出每一所述训练短句所对应的句向量;
采用聚类算法根据所述句向量把具有相似度的所述训练短句进行聚类,得到若干聚类簇;
标注出每一所述聚类簇所对应的标签,构建出所述语料标签库。
5.根据权利要求2所述的评论标签挖掘方法,其特征在于,所述利用所述开源词向量工具根据所述产品词向量库输出每一所述训练短句所对应的句向量包括:
利用所述分词工具对每一所述训练短句进行分词;
利用所述开源词向量工具根据所述语料词库输出每一所述训练短句所对应分词的词向量;
利用均值函数对所述每一所述训练短句所对应分词的词向量进行均值运算,得到所述每一所述训练短句所对应的句向量。
6.根据权利要求5所述的评论标签挖掘方法,其特征在于,所述采用聚类算法把具有相似度的所述训练短句进行聚类,得到若干聚类簇包括:
按照排列组合的方式两两组合所述训练短句;
根据两个所述训练短句所对应的所述句向量计算余弦相似度;
若所述余弦相似度大于相似度阈值,则判定当前两个所述训练短句具有相似度,将当前两个所述训练短句聚类成相同的所述聚类簇;
若所述余弦相似度小于或者等于相似度阈值,则判定当前两个所述训练短句不具有相似度。
7.根据权利要求6所述的评论标签挖掘方法,其特征在于,所述聚类算法为DBScan聚类算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州力挚网络科技有限公司,未经广州力挚网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111318293.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:苯甲酰胺类衍生物及其用途
- 下一篇:一种电子膨胀阀





