[发明专利]短文本分类模型的生成方法、分类方法、装置及存储介质有效
申请号: | 201811071528.2 | 申请日: | 2018-09-14 |
公开(公告)号: | CN109271514B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 蒋运承;李超;马文俊;刘宇东;詹捷宇;毛舜;郑航;黄光健;韦丽娜 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
地址: | 510006 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种短文本分类模型的生成方法、分类方法、装置及存储介质,包括:获取短文本训练集;获得每篇短文本的词集合;获得每个关键词的语义相关的词集合;计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;获得每个关键词的语义扩展的词;将每个关键词的语义扩展的词添加到所述关键词所在的短文本的关键词集合内,获得每篇短文本的关键词扩展集合;根据每篇短文本的关键词扩展集合训练分类模型,获得短文本分类模型。通过关键词的语义相关的词集合,实现了对关键词的语义扩展;通过综合考虑相关度和相似度,获得每个关键词的扩展的语义词,减少了语义歧义,丰富了语义效果,实现了快捷准确地对短文本进行自动分类。 | ||
搜索关键词: | 文本 分类 模型 生成 方法 装置 存储 介质 | ||
【主权项】:
1.一种短文本分类模型的生成方法,其特征在于,包括如下步骤:获取短文本训练集;所述短文本训练集中至少包括一个短文本;对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合;获取每篇短文本的词集合中每个词的词频‑逆文档频率值,并根据所述词频‑逆文档频率值获得每篇短文本的关键词集合;根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合;将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;根据所述相关度和相似度,获得每个关键词的语义扩展的词;将每个关键词的语义扩展的词添加到所述关键词所在的短文本的关键词集合中,获得每篇短文本的关键词扩展集合;根据每篇短文本的关键词扩展集合训练分类模型,获得短文本分类模型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811071528.2/,转载请声明来源钻瓜专利网。