[发明专利]基于语义相似度的文本聚类方法在审
申请号: | 201811385276.0 | 申请日: | 2018-11-20 |
公开(公告)号: | CN109543036A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 杨鑫 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 吴中伟 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 语义相似度 文本聚类 文本数据 语义模型 特征集 相似度 低纬 向量 文本 自然语言理解 词袋模型 聚类分析 神经网络 语义解析 语义理解 大数据 多元组 识别率 语句 解析 输出 转换 失败 应用 分析 成功 | ||
本发明属于大数据分析领域,其公开了一种基于语义相似度的文本聚类方法,对自然语言理解中语义解析失败的不规范语句进行聚类分析,提高语义理解的识别率。该方法包括:a.收集文本数据,根据成功解析的结果对其进行分类;b.针对分类后的文本数据进行多元组拆分,获得各个分类下的训练特征集;c.基于词袋模型将训练特征集转换为宇向量;d.将所述宇向量作为神经网络的输入进行训练,获得不同分类下的低纬语义模型;e.在应用时,计算待分类的不规范文本与已经训练好的各个类别的低纬语义模型之间的相似度得分;f.选择相似度得分最高的分类作为该不规范文本的分类,进行类别输出。
技术领域
本发明属于大数据分析领域,具体涉及一种基于语义相似度的文本聚类方法。
背景技术
目前NLP(Natural Language Processing自然语言处理)在实际项目运用中,实际语音识别后处理过程中,由于语音输入者(讲话人)可能的心理或者情绪的起伏、方言口音等问题,造成语速过快、声调变高/低、发音失真等共振峰和音调变化,产生语音识别信号错误,从而无法正确表达用户(讲话人)的真实内容给计算机做后续处理。不同于实验环境下较为标准和模板化的测试用例,因此NLP在实际应用中会有大批量的文本为未识别出用户的真实意图的无效用例,这些无效用例会降低整个NLP应用中的语义理解的识别率。
因此,本申请有必要提出一种基于语义相似度的文本聚类方法,对自然语言理解中语义解析失败的不规范语句进行聚类分析,提高语义理解的识别率。
发明内容
本发明所要解决的技术问题是:提出一种基于语义相似度的文本聚类方法,对自然语言理解中语义解析失败的不规范语句进行聚类分析,提高语义理解的识别率。
本发明解决上述技术问题所采用的技术方案是:
基于语义相似度的文本聚类方法,包括以下步骤:
a.收集文本数据,根据成功解析的结果对其进行分类;
b.针对分类后的文本数据进行多元组拆分,获得各个分类下的训练特征集;
c.基于词袋模型将训练特征集转换为宇向量;
d.将所述宇向量作为神经网络的输入进行训练,获得不同分类下的低纬语义模型;
e.在应用时,计算待分类的不规范文本与已经训练好的各个类别的低纬语义模型之间的相似度得分;
f.选择相似度得分最高的分类作为该不规范文本的分类,进行类别输出。
作为进一步优化,步骤a中,所述收集文本数据,根据成功解析的结果对其进行分类,具体包括:
在日志系统收集在实际项目应用中,对实体解析成功的文本数据,或者收集已经标注好的数据文本,基于已知标签结果,根据标签分类个数,将数据文本分为不同类别下的集合。
作为进一步优化,步骤b中,所述针对分类后的文本数据进行多元组拆分,获得各个分类下的训练特征集,具体包括:
对每个类别下的数据文本集合中的每一条数据进行n-grams拆分,拆分为由二元词组、三元词组和原文本组成的该类别下的训练特征集,并对训练特征集中的词组进行去重处理。
作为进一步优化,步骤d具体包括:
d1.选择tanh为神经网络的隐藏层和输出层的激活函数;
d2.将不同分类的宇向量作为神经网络的输入;
d3.经过神经网络算法生成各个类别下的低纬语义的向量模型;
d4.计算输入的未知文本与每个低纬语义的向量模型之间的语义向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811385276.0/2.html,转载请声明来源钻瓜专利网。