[发明专利]主题词分类模型创建方法、创建装置及存储介质有效
申请号: | 201710447182.0 | 申请日: | 2017-06-14 |
公开(公告)号: | CN107330009B | 公开(公告)日: | 2022-03-08 |
发明(设计)人: | 孙子荀 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 深圳翼盛智成知识产权事务所(普通合伙) 44300 | 代理人: | 黄威 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种主题词分类模型创建方法,其包括:获取多个模型训练文档,并提取所述模型训练文档的标签词;基于相似度算法,获取标签词对应的核心主题词组;基于映射内容库,获取核心主题词组对应的第一模型训练文档集合;基于机器学习算法,对多个模型训练文档进行分类操作;基于映射内容库,获取标签词对应的所有模型训练文档的主体类别标识,并根据标签词对应的主体类别标识,确定标签词对应的第二模型训练文档集合;将标签词对应的第一模型训练文档集合和第二模型训练文档集合中重复的模型训练文档作为正样本,映射内容库中的其他模型训练文档作为负样本,创建标签词的主题词分类模型。本发明还提供一种主题词分类模型创建装置及存储介质。 | ||
搜索关键词: | 主题词 分类 模型 创建 方法 装置 存储 介质 | ||
【主权项】:
一种主题词分类模型创建方法,其特征在于,包括:获取多个模型训练文档,并提取所述模型训练文档的标签词,以建立所述模型训练文档与所述标签词的映射内容库;基于相似度算法,获取所述标签词对应的核心主题词组;其中所述核心主题词组中包括多个核心主题词;基于所述映射内容库,获取所述核心主题词组对应的第一模型训练文档集合;基于机器学习算法,对多个所述模型训练文档进行分类操作;其中每个类别的模型训练文档具有一个主体类别标识;基于所述映射内容库,获取所述标签词对应的所有模型训练文档的主体类别标识,并根据所述标签词对应的主体类别标识,确定所述标签词对应的第二模型训练文档集合;以及将所述标签词对应的第一模型训练文档集合和第二模型训练文档集合中重复的模型训练文档作为正样本,所述映射内容库中的其他模型训练文档作为负样本,创建所述标签词的主题词分类模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710447182.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种直联无油空气压缩机
- 下一篇:一种基于机器学习的后台路径爆破方法