[发明专利]短文本分类模型的生成方法、分类方法、装置及存储介质有效
申请号: | 201811071528.2 | 申请日: | 2018-09-14 |
公开(公告)号: | CN109271514B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 蒋运承;李超;马文俊;刘宇东;詹捷宇;毛舜;郑航;黄光健;韦丽娜 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30;G06K9/62 |
代理公司: | 广州骏思知识产权代理有限公司 44425 | 代理人: | 吴静芝 |
地址: | 510006 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 分类 模型 生成 方法 装置 存储 介质 | ||
1.一种短文本分类模型的生成方法,其特征在于,包括如下步骤:
获取短文本训练集;所述短文本训练集中至少包括一个短文本;
对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合;
获取每篇短文本的词集合中每个词的词频-逆文档频率值,并根据所述词频-逆文档频率值获得每篇短文本的关键词集合;
根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合;
将每个关键词和语义相关的词集合中的每个词向量化表示,并计算每个关键词和语义相关的词集合中的每个词的相关度和相似度;
根据所述相关度和相似度,获得每个关键词的语义扩展的词;
将每个关键词的语义扩展的词添加到所述关键词所在的短文本的关键词集合中,获得每篇短文本的关键词扩展集合;
根据每篇短文本的关键词扩展集合训练分类模型,获得短文本分类模型;
所述根据每篇短文本的关键词集合,获得每个关键词的语义相关的词集合的步骤,包括:将每篇短文本的关键词集合的每个关键词分别输入到维基百科中,获取在所述关键词的页面出链和页面入链都包括的词,作为所述关键词的语义相关的词集合;
所述根据所述相关度和相似度,获得每个关键词的扩展的语义词的步骤,包括:根据所述相关度和相似度,获得每个关键词和所述关键词的语义相关的词集合中每个词的紧密程度;在所述紧密程度达到第三设定阈值时,则将语义相关的词作为所述关键词的扩展的语义词;
所述计算紧密度的计算方式为:
g=α×rij+(1-α)×sij
式中,g为ci和eij的紧密度;α和(1-α)分别表示相关度与相似度的权重;
所述计算每个关键词和语义相关的词集合中的每个词的相关度的计算方式为:
式中,ci为关键词,ci语义相关的词为集合Ei={ei1,ei2,…,eij,…ein};rij为ci和eij的相关度;为A表示维基百科中包含关键词ci的所有链接页面的集合,B表示维基百科中包含特征词eij的所有链接页面的集合,W是维基百科中所有页面的集合,符号“||”表示取集合的数量;
所述计算每个关键词和语义相关的词集合中的每个词的相似度的计算方式为:
式中,sij为ci和eij的相似度,和分别表示关键词ci和特征词eij的向量化表示,“||2”表示向量的2-范数运算。
2.根据权利要求1所述的短文本分类模型的生成方法,其特征在于,所述对短文本训练集中的每篇短文本分别进行分词处理,获得每篇短文本的词集合之后,还包括步骤:统计每篇短文本的词集合中每个词的词频数量,并删除每篇短文本的词集合中出现次数少于第一设定阈值的词;和/或,删除每篇短文本的词集合中的停用词。
3.根据权利要求1所述的短文本分类模型的生成方法,其特征在于,所述根据所述词频-逆文档频率值,获得每篇短文本的关键词集合的步骤,包括:将每篇短文本的词集合中各词的词频-逆文档频率值进行降序排序,并获取排序在第二设定阈值前的词,作为每篇短文本的关键词集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811071528.2/1.html,转载请声明来源钻瓜专利网。