[发明专利]基于语义相似度的文本聚类方法在审
申请号: | 201811385276.0 | 申请日: | 2018-11-20 |
公开(公告)号: | CN109543036A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 杨鑫 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 吴中伟 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 语义相似度 文本聚类 文本数据 语义模型 特征集 相似度 低纬 向量 文本 自然语言理解 词袋模型 聚类分析 神经网络 语义解析 语义理解 大数据 多元组 识别率 语句 解析 输出 转换 失败 应用 分析 成功 | ||
1.基于语义相似度的文本聚类方法,其特征在于,包括以下步骤:
a.收集文本数据,根据成功解析的结果对其进行分类;
b.针对分类后的文本数据进行多元组拆分,获得各个分类下的训练特征集;
c.基于词袋模型将训练特征集转换为宇向量;
d.将所述宇向量作为神经网络的输入进行训练,获得不同分类下的低纬语义模型;
e.在应用时,计算待分类的不规范文本与已经训练好的各个类别的低纬语义模型之间的相似度得分;
f.选择相似度得分最高的分类作为该不规范文本的分类,进行类别输出。
2.如权利要求1所述的基于语义相似度的文本聚类方法,其特征在于,步骤a中,所述收集文本数据,根据成功解析的结果对其进行分类,具体包括:
在日志系统收集在实际项目应用中,对实体解析成功的文本数据,或者收集已经标注好的数据文本,基于已知标签结果,根据标签分类个数,将数据文本分为不同类别下的集合。
3.如权利要求1所述的基于语义相似度的文本聚类方法,其特征在于,步骤b中,所述针对分类后的文本数据进行多元组拆分,获得各个分类下的训练特征集,具体包括:
对每个类别下的数据文本集合中的每一条数据进行n-grams拆分,拆分为由二元词组、三元词组和原文本组成的该类别下的训练特征集,并对训练特征集中的词组进行去重处理。
4.如权利要求1所述的基于语义相似度的文本聚类方法,其特征在于,步骤d具体包括:
d1.选择tanh为神经网络的隐藏层和输出层的激活函数;
d2.将不同分类的宇向量作为神经网络的输入;
d3.经过神经网络算法生成各个类别下的低纬语义的向量模型;
d4.计算输入的未知文本与每个低纬语义的向量模型之间的语义向量;
d5.通过softmax函数将未知文本和向量模型之间的相似性转为后验概率,并通过极大似然估计来最小化损失函数:
d6.最后通过反向传播和随机梯度下降算法使得向量模型收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811385276.0/1.html,转载请声明来源钻瓜专利网。