[发明专利]基于语义相似度的文本聚类方法在审
申请号: | 201811385276.0 | 申请日: | 2018-11-20 |
公开(公告)号: | CN109543036A | 公开(公告)日: | 2019-03-29 |
发明(设计)人: | 杨鑫 | 申请(专利权)人: | 四川长虹电器股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/332 |
代理公司: | 成都虹桥专利事务所(普通合伙) 51124 | 代理人: | 吴中伟 |
地址: | 621000 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于大数据分析领域,其公开了一种基于语义相似度的文本聚类方法,对自然语言理解中语义解析失败的不规范语句进行聚类分析,提高语义理解的识别率。该方法包括:a.收集文本数据,根据成功解析的结果对其进行分类;b.针对分类后的文本数据进行多元组拆分,获得各个分类下的训练特征集;c.基于词袋模型将训练特征集转换为宇向量;d.将所述宇向量作为神经网络的输入进行训练,获得不同分类下的低纬语义模型;e.在应用时,计算待分类的不规范文本与已经训练好的各个类别的低纬语义模型之间的相似度得分;f.选择相似度得分最高的分类作为该不规范文本的分类,进行类别输出。 | ||
搜索关键词: | 分类 语义相似度 文本聚类 文本数据 语义模型 特征集 相似度 低纬 向量 文本 自然语言理解 词袋模型 聚类分析 神经网络 语义解析 语义理解 大数据 多元组 识别率 语句 解析 输出 转换 失败 应用 分析 成功 | ||
【主权项】:
1.基于语义相似度的文本聚类方法,其特征在于,包括以下步骤:a.收集文本数据,根据成功解析的结果对其进行分类;b.针对分类后的文本数据进行多元组拆分,获得各个分类下的训练特征集;c.基于词袋模型将训练特征集转换为宇向量;d.将所述宇向量作为神经网络的输入进行训练,获得不同分类下的低纬语义模型;e.在应用时,计算待分类的不规范文本与已经训练好的各个类别的低纬语义模型之间的相似度得分;f.选择相似度得分最高的分类作为该不规范文本的分类,进行类别输出。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川长虹电器股份有限公司,未经四川长虹电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811385276.0/,转载请声明来源钻瓜专利网。