[发明专利]一种基于深度语义路径搜索的短文本聚类方法有效
申请号: | 201710352292.9 | 申请日: | 2017-05-18 |
公开(公告)号: | CN107273426B | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 李开宇;李秀生 | 申请(专利权)人: | 四川新网银行股份有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 成都智言知识产权代理有限公司 51282 | 代理人: | 李龙;徐金琼 |
地址: | 610041 四川省成都市高*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明属于文本特征向量化表示领域,公开了一种基于深度语义路径搜索的短文本聚类方法。对通用语料库进行预处理,得到所述语料库对应的词汇表;建立所述词汇表中各词语的实数向量;对短文本进行预处理,利用处理后的短文本对LSTM序列化模型进行训练,得到优化后LSTM模型;搜索短文本中词序列中有序的子序列组合,利用所述优化后的LSTM模型计算所述子序列组合的概率,利用所述概率选择所述短文本最优的语义路径;利用短文本间最优的语言路径通过余弦相似度计算得到短文本间相似度;将所述相似度作为聚类的参数对短文本进行聚类,得到最终聚类的结果;采用本发明可以有效的解决个别噪音词对解析整个短文本语义的干扰问题。 | ||
搜索关键词: | 一种 基于 深度 语义 路径 搜索 文本 方法 | ||
【主权项】:
1.一种基于深度语义路径搜索的短文本聚类方法,其特征在于:包括以下步骤:步骤1:对通用语料库进行预处理,得到所述语料库对应的词汇表;步骤2:建立所述词汇表中各词语的实数向量;步骤3:对短文本进行预处理;步骤4:利用处理后的短文本对LSTM序列化模型进行训练,得到优化后LSTM模型;步骤5:搜索短文本中词序列中有序的子序列组合,利用所述优化后的LSTM模型计算所述子序列组合的概率,利用所述概率选择所述短文本最优的语义路径;步骤6:利用短文本间最优的语言路径通过余弦相似度计算得到短文本间相似度;步骤7:将所述相似度作为聚类的参数对短文本进行聚类,得到最终聚类的结果;所述步骤4中,LSTM序列化模型的训练过程为:步骤S501:将所述短文本的中的各词语映射为one hot向量;步骤S502:将第i个词语的one hot向量xi和位置i‑1的隐藏状态Si‑1作为位置i的输入,利用非线性函数F计算出位置i的隐藏状态Si;步骤S503:改变所述短文本中词语的序列,得出位置i的隐藏状态Si′,利用隐藏状态残差Si‑Si′对LSTM序列化模型进行误差反向传播;步骤S504:多次改变所述短文本中词语的序列,使第i个词语的one hot向量xi和所述非线性函数F得到优化;所述步骤5中,所述子序列组合的概率的计算方法为:利用训练后的LSTM序列化模型,将短文本中每个词语依次映射为one hot向量并进行隐藏状态的计算;再利用S函数计算出每个词语在该短文本序列中出现的概率Oi;所述S函数为:Oi=softmax(VSi);选择所述最优语义路径的方法为:利用该短文本中所有词按顺序出现的概率的平均值作为语义路径的择优判断。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川新网银行股份有限公司,未经四川新网银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710352292.9/,转载请声明来源钻瓜专利网。