[发明专利]一种基于用弱监督深度学习的文本聚类方法在审
申请号: | 201811256912.X | 申请日: | 2018-10-26 |
公开(公告)号: | CN109582782A | 公开(公告)日: | 2019-04-05 |
发明(设计)人: | 谭敏;俞俊;张海超 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 朱月芬 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于用弱监督深度学习的文本聚类方法。本发明步骤如下:(1)、借助有文本点击信息的图像数据集,利用图像视觉信息与图像类别标号,使用图像扩增和聚类构建每个文本的图像类点击特征矩阵;(2)、在初始的类点击矩阵上用排序和传播的方法得到光滑的图像点击特征图。此特征图上进行文本聚类得到初始的文本类别,同时利用点击先验初始化文本权重;(3)、在最小化类内均方误差下,搭建深度文本聚类模型学习深度文本特征;(4)、使用弱监督学习方法对深度模型和文本权重进行联合优化,迭代更新深度模型和文本权重;(5)、利用深度文本模型提取深度文本特征,实现基于K‑means方法的聚类。本发明有很强的普适性,有效解决了图像识别中的“语义鸿沟”。 | ||
搜索关键词: | 文本聚类 文本 权重 深度模型 文本特征 特征图 图像 聚类 矩阵 图像视觉信息 图像数据集 先验 点击信息 迭代更新 均方误差 联合优化 模型学习 特征矩阵 图像类别 图像识别 文本类别 文本模型 有效解决 语义鸿沟 初始化 普适性 最小化 监督 构建 扩增 光滑 学习 排序 传播 | ||
【主权项】:
1.一种基于用弱监督深度学习的文本聚类方法,其特征在于步骤如下:(1)、借助有文本点击信息的图像数据集,利用图像视觉信息与图像类别标号,使用图像扩增和聚类构建每个文本的图像类点击特征矩阵;(2)、在初始的类点击矩阵上用排序和传播的方法得到光滑的图像点击特征图;此特征图上进行文本聚类得到初始的文本类别,同时利用点击先验初始化文本权重;(3)、在最小化类内均方误差下,搭建深度文本聚类模型学习深度文本特征;(4)、使用弱监督学习方法对深度模型和文本权重进行联合优化,迭代更新深度模型和文本权重;(5)、利用深度文本模型提取深度文本特征,实现基于K‑means方法的聚类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811256912.X/,转载请声明来源钻瓜专利网。